単語共起によるクエリー展開を用いた大規模テキスト検索
スポンサーリンク
概要
- 論文の詳細を見る
近年のネットワークの発展により、大規模なテキストデータベースを個人単位で使用する機会が生じてきた。このため大規模テキストに対する実用的な情報検索システムに対する要望が高まってきている。本研究所では、GByte級の英語テキストデータに対する情報検索システムを構築した。本システムでは、検索要求文は自然言語で入力し、その検索要求文からクエリーを自動生成し、そのクエリーとドキュメント中の単語とのマッチングを行うことで検索を行う。一般に、情報検索システムでは、検索要求文中に含まれる単語のみを用いてクエリーを生成し、そのクエリーをそのまま用いて検索を行っても、検索者の必要としている文書が十分には検索できないことが知られている。これは、検索要求文と検索対象ドキュメントでは、異なる単語で同一の意味内容を表現していたり、検索要求文中の単語を抽出した時点で要求文の意味内容が損なわれたりすることが主な原因である。クエリーが十分な検索を行うだけの単語をもっていない場合には、クエリー中に検索に必要な単語を追加するために、クエリー展開(Query Term Expansion)を行う必要がある。このクエリー展開の方法としては、シソーラスを用いて同義語等を展開する手法が知られている。本稿では、既存のシソーラスを用いるのではなく、 ドキュメント中でクエリー単語と共起する単語を用いてクエリー展開を行う方法を提案する。そして、本手法を実際の情報検索システム中にインプリメントし、Byte単位のドキュメントを用いて検索を行い、その検索精度の評価を行ったのでその評価結果についても報告を行う。
- 一般社団法人情報処理学会の論文
- 1996-03-06
著者
-
佐藤 研冶
Nec 情報メディア研究所
-
佐藤 研治
NEC 情報メディア研究所
-
赤峯 享
NEC 情報メディア研究所
-
佐藤 研冶
NEC情報メディア研究所
-
赤峯 享
NEC情報メディア研究所
-
奥村 明俊
NEC情報メディア研究所
-
奥村 明俊
Nec情報システムズ
関連論文
- 多言語翻訳 (日本語処理技術特集) -- (機械翻訳技術)
- 日本語入力による英文作成支援インタフェース
- 文書参照/引用履歴を利用したノウハウ活用エージェント
- 冗長インデクスを用いた OCR テキスト検索システム
- 日本語入力による英文作成支援システム : 辞書学習
- 日本語入力による英文作成支援システム : 長文パターンによる翻訳
- 概念表現を用いた自動通訳システムINTERTALKER
- FEP型英文作成支援ツールにおける対話的曖昧性解消方式
- FEP型英文作成支援ツール : 外国語情報発信の効果的インタフェース
- FEP型英文作成支援ツール : 日英構文変換部
- 日本語文構造分類ツール
- 大規模テキスト並列検索エンジンRetrievalExpress (1) : 並列検索方式
- 日本語入力による英文作成支援システム : 仮名漢字変換から仮名英語変換へ
- 対話文の英日機械翻訳における日本語待遇表現の生成
- 日本語生成に於ける対話文脈構造と代名詞省略
- 翻訳機能付きワープロ : 不安と疲れを感じさせないインタフェース
- シソーラスによるクエリー展開を用いた大規模テキスト検索
- 高速全文検索システム RetrievalExpress
- 文字ベース凝縮テキストによる全文検索方式の評価
- 単語共起によるクエリー展開を用いた大規模テキスト検索
- 語順と省略に着目した自然な日本語対話文の生成
- 対訳用例に基づく対話文翻訳における日本語生成方式
- 高速全文検索のためのフレキシブル文字列インバージョン法(1) 方式概要
- 高速全文検索のためのフレキシブル文字列インバージョン法(2)実装と評価
- 高速全文検索のためのフレキシブル文字列インバージョン法(1)方式概要
- メディア解析アプリケーションの開発を容易化する情報価値創造基盤
- アイデアインテグレーション環境
- 意識的探索作業からユーザを解放する情報提供法