検索語間における共起関係の特定によるレレバンスフィードバックの高精度化
スポンサーリンク
概要
- 論文の詳細を見る
レレバンスフィードバックを実現する代表的な手法であるRocchioフィードバックは, 検索要求文と文書をベクトルで表現するベクトル空間法において, 検索者によるフィードバック情報を用いて検索要求文から作成した検索ベクトルを修正する. この手法を用い, 多くの研究者が文書検索の精度を向上させる効果を報告しているが, ベクトルの修正はベクトル間の加減算によってのみ行われるため, 検索語間の共起関係をとらえることができなかった. 本稿では検索語の重要な共起関係を決定木学習アルゴリズムID3を用いて推定し, 推定した共起を含む文書についてRocchioフィードバックによる順位付けを補正する手法を提案する. 学習例数が不足する場合は共起関係を正確に学習できないというID3の欠点を補うため, 文書データベース中の大部分の文書は検索者にとって関心がない文書であることに着目し, 仮想的に負例を増加させる. 実験の結果, 提案手法により検索精度をRocchioフィードバックに対して5%程度向上できることが分かった.
- 一般社団法人情報処理学会の論文
- 1999-03-15
著者
-
木谷 強
株式会社NTTデータ
-
岡田 守
電電公社
-
岡田 守
株式会社NTTデータ 知的財産部
-
木谷 強
株式会社nttデータ北米技術センタ
-
中島 浩之
株式会社nttデータオープンシステムセンタ:(現)日本電信電話株式会社
-
岡田 守
高知工科大学情報システム工学部
-
岡田 守
高知工科大学
関連論文
- MDL原理に基づく正則化 : 不連続性に対応する正則化パラメータの推定
- 日本語情報検索システム評価用テストコレクションの構築
- 日本語情報検索システム評価用テストコレクション BMIR-J2
- 1105 ステップ数と工数に基づく生産性評価の一考察(一般セッション)
- 2)文字・モザイク画面作成法の検討(画像通信システム研究会(第49回))
- 文字・モザイク画面作成法の検討
- 情報提供用画面作成装置
- 15-16 簡易画像作成方式の一検討
- 情報検索システム評価用ベンチマークVer.1.0(BMIR-J1)について (メディア統合および環境統合のための高機能データベースシステム、および一般)
- 文書レイアウトに着目した学術論文誌からのSGML文書生成システム
- 天体画像符号化方式
- 水平・垂直線要素の分類を用いた線順次形細線化法
- 線図形の入力法に関する一考察
- 線図形入力法に関する一検討
- 会話形画像処理用ディジタルTV(DTV-1)
- カラ-画像処理用ディジタルテレビジョン
- 共起単語間の関連性を考慮した文書重要度付与
- SGMLによる『情報管理』誌の冊子体・電子版同時作成の開始と全文検索の試み
- SGMLによる「情報管理」誌の冊子体・電子版同時作成の開始と全文検索の試み
- シソーラス掲載語の重要性を考慮した文書スコアリング
- フルテキストと抽出キーワードを利用した情報検索
- フルテキストと抽出キーワードを利用した情報検索
- 単語出現共起関係を用いた文書重要度付与の検討
- 分散環境における情報検索を支援するデータベース選択方式
- 異種分散環境におけるエージェント指向型情報検索システム : データベース選択方式の評価
- 15-14 簡易画像作成装置の文字入力法
- 1)ランレイグスによる線分分離法とその図形処理への応用(画像表示研究会(第49回))
- ランレングスによる線分分離法とその図形処理への応用
- シソーラスと決定木学習アルゴリズムによる Rocchio feedback の高精度化
- 1106 過去データから算出した予測工数に基づく生産性メトリクス(一般セッション)
- メディア変換技術の最新動向-3-文書認識技術
- 高機能漢字図形端末ソフトウェアの実用化 (日本語情報処理)
- テキストのフォーマットと単語の範囲内重要度を利用したキーワード抽出
- 単語共起と語の部分一致を利用したキーワード抽出法の検討
- 特徴的表現を利用した特許抄録作成法の検討
- レレバンスフィードバックにおける検索語の共起関係推定処理の高速化
- 検索語間における共起関係の特定によるレレバンスフィードバックの高精度化
- 単語の文書頻度を利用した決定木学習アルゴリズムによるrelevance feedbackの高精度化
- 単語の重要度に基づくテキストの要約
- 単語重要度と語彙的結束性を利用したテキストセグメンテーション
- 特集「仮想環境社会の展望」の編集にあたって (仮想環境社会の展望)
- 図形セグメンテ-ションに関する一検討
- 図面特徴成分分離法の検討
- ソフトウェア特許 : ソフトウェアは特許になるか?
- D-12-97 累積輝度ヒストグラムとKolmogorov-Smirnov検定を用いた移動物体の軌道検出(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
- 2113 ソフトウェア開発プロジェクトにおける生産性への影響評価手法(一般セッション)
- 情報検索、情報抽出テストコレクション
- 語彙的結束性と単語重要度に基づくテキストセグメンテーション
- 冨田一般化LRパーザを用いた情報抽出
- パターンマッチング手法による名称特定処理の有効性の検討
- パターンマッチング手法による名称特定処理の有効性の検討
- OCRの認識結果に対する文字認識後処理方式の検討
- 住所の文字認識結果に対する後処理方式の検討