プーリング手法を用いた学術論文の自動判別実験(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
スポンサーリンク
概要
- 論文の詳細を見る
機械学習におけるテキスト分類実験を行うためには,予め判定されたテストコレクションを必要とする,しかしながら,ラベル付きデータの作成については、その多大なコストの問題がしばしば指摘されてきた.本研究では,ウェブから日本語学術論文PDFファイルを自動的に判別・収集することを目的として,20,000件のラベル付きデータを学習集合とし,およそ52万件のラベルなしデータを実験集合とした自動判別実験を行った.また,複数の分類アルゴリズムによって学術論文であると判定されたファイルをプーリングすることによって,各々の手法の性能比較を行つた.その結果本実験環境におけるプーリング手法の有効生が示された.
- 社団法人情報処理学会の論文
- 2007-03-27
著者
-
宮田 洋輔
慶應義塾大学大学院文学研究科図書館・情報学専攻
-
上田 修一
慶應義塾大学文学部
-
池内 淳
大東文化大学
-
安形 輝
亜細亜大学
-
石田 栄美
駿河台大学
-
野末 道子
鉄道総合技術研究所
-
石田 栄美
国立情報学研究所
-
野末 道子
鉄道総研
-
野末 道子
鉄道総合技術研
-
池内 淳
筑波大学図書館情報メディア系
-
池内 淳
筑波大学
-
上田 修一
慶應義塾大学
-
宮田 洋輔
慶應義塾大学
-
安形 輝
亜細亜大学国際関係学科
関連論文
- 読書行為の次元 : 成人を対象としたフォーカス・グループ・インタビュー
- 画面遷移と利用者特性からみた大学生におけるOPACの閲覧
- テレビニュース視聴への情報重複性の効果--眼球運動測定と確認テストによる分析
- プーリング手法を用いた学術論文の自動判別実験(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- 目次と帯を用いた図書の自動分類(情報検索・分類,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- 図書館情報学研究における「根拠(エビデンス)」(図書館情報学の研究動向と新たな流れ)
- 機械学習手法による著作の自動同定
- 日本語テキストの自動分類のための特徴素抽出手法の比較
- 人の価値観を表すカテゴリを対象にした複数カテゴリへの自動分類の試み
- 「エビデンス・ベースト・ライブラリアンシップ」(EBL)の枠組みの検討 : 日本の図書館情報学文献の実態に基づいて
- プーリング手法を用いた学術論文の自動判別実験(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- 『時事新報』初期の社説の著者推定
- 「情報専門職の養成に向けた図書館情報学教育体制の再構築」研究班の最終報告会記録
- 「情報専門職の養成に向けた図書館情報学教育体制の再構築に関する総合的研究」最終報告書
- 三浦逸雄監修, 『図書館情報学の地平 : 50のキーワード』, 日本図書館協会, 2005, 353p.
- オープンアクセスを想定した日本語学術論文ファイルの自動判定(デジタルアーカイブの応用,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- 目次と帯を用いた図書の自動分類(情報検索・分類,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- オープンアクセスを想定した日本語学術論文ファイルの自動判定(デジタルアーカイブの応用,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- 日本の図書館情報学分野の教員の経歴と論文生産性
- 大学図書館トップページのガイドライン
- Webページの有用性に関する分析 : 特徴語の抽出と被リンク数の比較(Webマイニング)
- WWWにおける有用性の高いページの特定手法について
- 情報源としてのWWW (日米政府の電子化文書を使った多言語アーカイブ・サイトの開発)
- 大学図書館のホームページとOPACを採点する (情報とデザイン)
- 日本十進分類法と基本件名標目の相互マッピングの試み
- 映像の分析と視聴者調査からみたテレビニュースの形式と内容の変化
- テレビニュース視聴への情報重複性の効果 : 眼球運動測定と確認テストによる分析
- 土木関連用語辞典の見出し語の分析と検索システムにおける活用に関する考察(辞書と辞典)
- 土木関連用語辞典の見出し語の分析と検索システムにおける活用に関する考察(辞書と辞典)
- 「学術用語集 図書館情報学編」改訂の経緯
- 設備保守効率化のための対話型データ計測・記録システム (特集 輸送情報技術)
- 旅行者の空間的・時間的コンテクストを考慮した動的情報メニュー構成法(モバイルインタフェース(2), モバイルインタフェースおよび一般)
- 多言語により検索可能な鉄道技術用語辞典
- 文章管理システムの開発 (特集:情報システム)
- 鉄道総研における文書管理システムの開発 : 利用者による評価
- 鉄道総研におけるトータルドキュメンテーションシステムの開発
- テキスト自動分類の概要(情報のフィルタリング)
- 日本語学術論文PDFファイルの自動判定
- テキストの自動分類に関わる諸要素
- WWW上のOPACにおける既知事項検索の諸問題
- 1202 携帯端末とモバイルインターネットを活用した設備保守支援(SS2-3 施設・構造物技術,SS2 メンテナンス,コストダウン,J-Rail 2006)
- 音声入力を活用した設備保守データ入力システムの開発
- NTCIR-3 WEB : Web 検索のための評価ワークショップ(電子文書処理)
- Web検索のための評価ワークショップに適したシステム評価手法
- 仮想評価法による公共図書館の経済評価
- WWWページの自動分類 : NDCの分類体系とYahooのカテゴリを使った分類
- 紙の印刷物は電子媒体より強い--紙の現在と電子図書館への疑問 (特集:電子図書館と「紙」の世界)
- 専門書はどれほど図書館で購入されるか
- 21世紀も本と雑誌は紙のまま (特集 「21世紀へ向けての医学図書館」)
- 学術情報流通における深層ウェブの実態--機関リポジトリに収録された文献を用いた調査
- 公立図書館の蔵書構成比と貸出規則に関する実態調査
- 動向レビュー 図書館のもたらす経済効果
- 公共図書館の生産関数と効率性の分析
- 図書館評価研究における経営学的アプローチ (特集 図書館パフォーマンス指標と経営評価の国際動向)
- 異なるデータ長に対応したデータ圧縮による類似データ同定 : 近代日本文学データの著者推定による検証
- 異なるデータ長に対応したデータ圧縮による類似データ同定 : 近代日本文学データの著者推定による検証(セッション1: 言語情報・情報検索)
- 異なるデータ長に対応したデータ圧縮による類似データ同定 : 近代日本文学データの著者推定による検証(セッション1: 言語情報・情報検索)
- Web調査におけるサンプル集合の収集法 (佐賀健二先生退職記念号)
- 情報検索における順位付け出力の優位性 : 戦略的な検索行動として最適採餌理論を導入した場合
- テレビニュースと新聞におけるエピソード型フレームとテーマ型フレーム--総選挙報道の分析
- 画像の認知の枠組みと索引法
- テキストの自動分類の要素分析的アプローチ
- CD-ROMとCD-I
- 第55回日本図書館情報学会研究大会シンポジウム記録 : 「図書館情報学におけるエビデンスベーストアプローチ」
- 科学技術情報 : 利用者の立場から : 科学技術文献を利用した研究・開発動向把握の方法(情報と企業活動(13))
- keyword, descriptor, non-descriptor, identifier, free-word, catchword
- インタ-ネットのサ-チエンジンの評価尺度 (『1998年情報学シンポジウム』プログラム--WWW情報検索・電子図書館・セキュリティ・著作権・マルチメディア情報流通・感性情報処理) -- ((セッション8)WWW情報検索)
- インターネットのサーチエンジンの評価尺度 : ESL (Expected Search Length) を使った検索実験
- 絵画データベースの検索手法 : ベクトル型検索手法の可能性
- ベクトル型検索手法による絵画データベースの検索
- 公共図書館の最適規模に関する実証的研究
- 公共図書館における費用便益分析
- 大学図書館効果の次元
- 表示媒体が文章理解と記憶に及ぼす影響-電子書籍端末と紙媒体の比較-
- 絵画の索引法 : 段階的絵画解釈を応用した三つの索引法によるデータベースの作成と評価
- 日本の図書館目録における書誌的家系--J-BISCにおける調査と先行研究との比較分析
- 鉄道総研における電子図書館の構築
- 大学図書館における電子情報源の利用者教育調査
- 複数の圧縮プログラムを用いた近代日本文学の著作推定
- 経済学研究者の電子メディア利用
- 九州大学大学院ライブラリーサイエンス専攻の概要と附属図書館との連携 (特集 図書館職員の研修)
- 深層ウェブの実態とその要因 : 機関リポジトリに登録された文献を用いた調査
- 図書館はどのような本を所蔵しているか : 2006年上半期総刊行書籍を対象とした包括的所蔵調査
- テキストの自動分類をめぐる現況 (特集 分類新時代)
- 電子図書館の光と影
- 感性キーワードの発展とその限界
- Z39.50とその可能性(Z39.50)
- 6. 絵画データベース : 索引法と検索法を中心に (人文・芸術系のデータベース : 今そしてこれから)
- 相互協力とネットワーク : 『大学図書館研究』の50号に基づいて
- 1996年度 『学会賞』 選考結果
- 日本の大学図書館のOPACの現状
- 図書館の貸出履歴を用いた図書推薦システムの有効性検証
- 所蔵状況による九州地域図書館システムの分析
- 図書館はどのような本を所蔵しているか : 2006年上半期総刊行書籍を対象とした包括的所蔵調査
- 図書館・情報学研究論文のトレンド--国内雜誌掲載論文の内容分析を中心として
- 著作同定における目録作成者間の一貫性
- JAPAN/MARCレコードから自動構築可能な著作識別子の提案
- 図書館の貸出履歴と書誌情報を用いた図書推薦システムの有効性
- 10E06 アクティブラーニングを促進するための新しいソーシャルラーニングシステムの開発・評価(高等教育の実践と研究(教育システム、IR、eラーニング、教員研修等含む),課題研究)
- 構造と構成要素に基づく学術論文の自動判定