単語の文書頻度を利用した決定木学習アルゴリズムによるrelevance feedbackの高精度化
スポンサーリンク
概要
- 論文の詳細を見る
relevance feedbackは、検索者にとって関心のある文書から抽出したキーワードを利用し、検索式を修正することで検索精度を向上させる手法である。その代表的なアルゴリズムであるRocchio feedback法は、種々の検索タスクで精度向上の効果が示されている。しかし、作成される質問ベクトルは論理積(AND)や否定(NOT)を完全には表現できず、検索者の意図を表現するには不十分である。ANDやNOTを用いて検索者の意図に適した検索式を作成する方法として、決定木学習アルゴリズムID3を利用する方法が提案されている。しかし、この方法も文書から検索語を選択する際に文書データベース内での単語の重要性を考慮しないため、検索者にとって重要でない語が検索語となる可能性があった。筆者は文書データベース全体の中で単語が登場する文書の数(単語の文書頻度)を利用することで、より重要な単語を検索語として選択するアルゴリズムを提案する。また提案手法の有効性を示すため、提案手法により作成した検索式をRocchio feedbackと融合し、これを情報検索システム評価用テストコレクションBMIR-J1により評価した結果を示す。
- 一般社団法人情報処理学会の論文
- 1997-05-15
著者
-
木谷 強
NTTデータ
-
木谷 強
株式会社NTTデータ
-
木谷 強
株式会社nttデータ北米技術センタ
-
中島 浩之
株式会社nttデータオープンシステムセンタ:(現)日本電信電話株式会社
-
中島 浩之
Nttデータ通信
関連論文
- 日本語情報検索システム評価用テストコレクションの構築
- 日本語情報検索システム評価用テストコレクション BMIR-J2
- 1105 ステップ数と工数に基づく生産性評価の一考察(一般セッション)
- 情報検索システム評価用ベンチマークVer.1.0(BMIR-J1)について (メディア統合および環境統合のための高機能データベースシステム、および一般)
- 特集「日本におけるオペレーティングシステム研究の動向」の編集にあたって (日本におけるオペレーティングシステム研究の動向)
- 共起単語間の関連性を考慮した文書重要度付与
- SGMLによる『情報管理』誌の冊子体・電子版同時作成の開始と全文検索の試み
- SGMLによる「情報管理」誌の冊子体・電子版同時作成の開始と全文検索の試み
- シソーラス掲載語の重要性を考慮した文書スコアリング
- フルテキストと抽出キーワードを利用した情報検索
- フルテキストと抽出キーワードを利用した情報検索
- 単語出現共起関係を用いた文書重要度付与の検討
- 分散環境における情報検索を支援するデータベース選択方式
- 異種分散環境におけるエージェント指向型情報検索システム : データベース選択方式の評価
- シソーラスと決定木学習アルゴリズムによる Rocchio feedback の高精度化
- 1106 過去データから算出した予測工数に基づく生産性メトリクス(一般セッション)
- 統計知識と文脈情報を用いた一般化LR構文解析法の研究
- テキストのフォーマットと単語の範囲内重要度を利用したキーワード抽出
- 単語共起と語の部分一致を利用したキーワード抽出法の検討
- 特徴的表現を利用した特許抄録作成法の検討
- レレバンスフィードバックにおける検索語の共起関係推定処理の高速化
- 検索語間における共起関係の特定によるレレバンスフィードバックの高精度化
- 単語の文書頻度を利用した決定木学習アルゴリズムによるrelevance feedbackの高精度化
- 単語の重要度に基づくテキストの要約
- 単語重要度と語彙的結束性を利用したテキストセグメンテーション
- 2113 ソフトウェア開発プロジェクトにおける生産性への影響評価手法(一般セッション)
- 情報検索、情報抽出テストコレクション
- 冨田一般化LRパーザを用いた情報抽出
- 文字認識誤り指摘のための形態素解析の適用性検討
- 語彙的結束性と単語重要度に基づくテキストセグメンテーション
- 冨田一般化LRパーザを用いた情報抽出
- パターンマッチング手法による名称特定処理の有効性の検討
- パターンマッチング手法による名称特定処理の有効性の検討
- OCRの認識結果に対する文字認識後処理方式の検討
- 放談会 : 『情報管理』は雲に乗って
- 住所の文字認識結果に対する後処理方式の検討