レレバンスフィードバックにおける検索語の共起関係推定処理の高速化
スポンサーリンク
概要
- 論文の詳細を見る
レレバンスフィードバックを実現する手法であるRocchioフィードバックは, 文書検索の精度を向上させる有効な手法として知られている.筆者らは検索された文書に適当なスコアを与えるため, 決定木学習アルゴリズムID3を用いて検索語間の共起関係を抽出し, 検索結果の優先順位に反映させることでRocchioフィードバックの検索精度を向上させる手法をこれまでに提案した.この際, 検索者により必要ないし不要の判定をされていない文書(非サンプル文書)を仮想的な不要文書としてID3に与えることで, より高い精度向上効果が得られることが分かっているが, 扱う文書データベース中の文書数に比例して共起推定の処理時間が増加するという欠点があった.本稿では非サンプル文書の集合において, 検索語が互いに独立かつ一様な確率で各文書に分布していると仮定することによりID3の決定木に登場する非サンプル文書の数を推定し, 実際の非サンプル文書集合の代用とすることで, ID3で処理する学習例数を減少させる手法を提案する.実験の結果, 提案手法は従来手法とほぼ同等の検索精度向上を実現し, 共起推定処理は10倍以上高速化できることが分かった.
- 一般社団法人情報処理学会の論文
- 2001-10-15
著者
-
木谷 強
株式会社NTTデータ
-
岩城 修
株式会社NTTデータ 情報科学研究所
-
木谷 強
株式会社nttデータ北米技術センタ
-
中島 浩之
株式会社nttデータオープンシステムセンタ:(現)日本電信電話株式会社
-
岩城 修
Nttデータ
-
岩城 修
Nttデータ通信
-
岩城 修
株式会社nttデータオープンシステムセンタ:(現)株式会社nttデータ開発本部
-
岩城 修
株式会社NTTデータ
関連論文
- 日本語情報検索システム評価用テストコレクションの構築
- 日本語情報検索システム評価用テストコレクション BMIR-J2
- 1105 ステップ数と工数に基づく生産性評価の一考察(一般セッション)
- 学術論文誌データベース化プロトタイプシステムの構築
- A-7-30 IC カード AP のダウンロード管理及び更新方式の一検討
- 情報検索システム評価用ベンチマークVer.1.0(BMIR-J1)について (メディア統合および環境統合のための高機能データベースシステム、および一般)
- 文書レイアウトに着目した学術論文誌からのSGML文書生成システム
- パターン分類手法に基づく文書画像の構造解析
- パターン分類手法に基づくレイアウト解析
- 商標の類似度に関する一検討
- 文書画像の入力ノイズに耐性のある電子透かし法の一検討
- 意味情報に基づく検索と全文検索の統合
- 意味情報に基づく検索と全文検索の統合
- 共起単語間の関連性を考慮した文書重要度付与
- SGMLによる『情報管理』誌の冊子体・電子版同時作成の開始と全文検索の試み
- SGMLによる「情報管理」誌の冊子体・電子版同時作成の開始と全文検索の試み
- シソーラス掲載語の重要性を考慮した文書スコアリング
- フルテキストと抽出キーワードを利用した情報検索
- フルテキストと抽出キーワードを利用した情報検索
- 単語出現共起関係を用いた文書重要度付与の検討
- 分散環境における情報検索を支援するデータベース選択方式
- 異種分散環境におけるエージェント指向型情報検索システム : データベース選択方式の評価
- シソーラスと決定木学習アルゴリズムによる Rocchio feedback の高精度化
- Dusk View を用いた時空間断片情報の視覚化
- 1106 過去データから算出した予測工数に基づく生産性メトリクス(一般セッション)
- テキストのフォーマットと単語の範囲内重要度を利用したキーワード抽出
- 単語共起と語の部分一致を利用したキーワード抽出法の検討
- 特徴的表現を利用した特許抄録作成法の検討
- レレバンスフィードバックにおける検索語の共起関係推定処理の高速化
- 検索語間における共起関係の特定によるレレバンスフィードバックの高精度化
- 単語の文書頻度を利用した決定木学習アルゴリズムによるrelevance feedbackの高精度化
- 単語の重要度に基づくテキストの要約
- 単語重要度と語彙的結束性を利用したテキストセグメンテーション
- 2113 ソフトウェア開発プロジェクトにおける生産性への影響評価手法(一般セッション)
- 情報検索、情報抽出テストコレクション
- 語彙的結束性と単語重要度に基づくテキストセグメンテーション
- 冨田一般化LRパーザを用いた情報抽出
- パターンマッチング手法による名称特定処理の有効性の検討
- パターンマッチング手法による名称特定処理の有効性の検討
- OCRの認識結果に対する文字認識後処理方式の検討
- レイアウト解析による文書画像分類法の検討
- 住所の文字認識結果に対する後処理方式の検討
- 表の領域情報に基づく帳票識別法の検討
- 文書認識処理の高速化を指向した専用ハードウェアの検討
- 周辺分布の高周波成分に着目した帳票識別法の一検討
- 文書画像のSGML文書への変換に関する一検討
- 部分構造の類似性に着目した文書画像の構造解析
- 構造の類似性に着目した対話型の非定型文書解析手法
- LN-4 複数サービスが利用する個人情報に関する管理方式の検討(N. 教育・人文科学)
- ペーパーレスは実現するか