シソーラスによるクエリー展開を用いた大規模テキスト検索
スポンサーリンク
概要
- 論文の詳細を見る
新聞・論文・特許文・社内文書等の大量の文書の電子化、及び、コンピューター・ネットワークの普及により、サーチャー等の専門職でない一般のユーザが直接、大量の文書を検索することが可能な環境が整いつつある。それにつれて、一般ユーザが手軽に文書を検索できるシステムの要望が高まっている。 筆者らは、自然言語で記述された検索要求書からクエリーを作成し、そのクエリーと文書中の単語のマッチングを行うことで検索を行う英文書検索システムを構築した。自然言語文で、検索を行うメリットとしては、(1)誰でも簡単に記述できる、(2)検索対象の文書を正確に記述できる(検索結果の評価が可能である)、(3)類似した文書を検索するシステムへの拡張が容易である(例えば、自分が現在書いている論文と類似した文書を検索する)、等があげられる。しかしながら、検索要求書中に記述された単語と実際に文書中に含まれる単語の間には、同じ意味でも表現にズレが生じるため、検索要求書中に記述された単語のみでクエリーを作成したのでは、適切な文書が十分に検索できないという問題が生じた。この問題を解決する方法として、シソーラスや共起情報を利用して検索入力の単語を展開することで検索を行う方法が提案さている。しかしながら、実用規模の文書に対する評価について、ほとんど報告されていない。今回、ギガバイト単位の英文書に対して、汎用のシソーラスの同意語・下位概念語等を利用してクエリーの展開を行い、検索精度の評価実験を行ったので報告する。
- 1996-03-06
著者
-
佐藤 研冶
Nec 情報メディア研究所
-
佐藤 研治
NEC 情報メディア研究所
-
赤峯 享
NEC 情報メディア研究所
-
佐藤 研冶
NEC情報メディア研究所
-
赤峯 享
NEC情報メディア研究所
-
奥村 明俊
NEC情報メディア研究所
-
奥村 明俊
Nec情報システムズ
関連論文
- 多言語翻訳 (日本語処理技術特集) -- (機械翻訳技術)
- 日本語入力による英文作成支援インタフェース
- 文書参照/引用履歴を利用したノウハウ活用エージェント
- 冗長インデクスを用いた OCR テキスト検索システム
- 日本語入力による英文作成支援システム : 辞書学習
- 日本語入力による英文作成支援システム : 長文パターンによる翻訳
- 概念表現を用いた自動通訳システムINTERTALKER
- FEP型英文作成支援ツールにおける対話的曖昧性解消方式
- FEP型英文作成支援ツール : 外国語情報発信の効果的インタフェース
- FEP型英文作成支援ツール : 日英構文変換部
- 日本語文構造分類ツール
- 大規模テキスト並列検索エンジンRetrievalExpress (1) : 並列検索方式
- 日本語入力による英文作成支援システム : 仮名漢字変換から仮名英語変換へ
- 対話文の英日機械翻訳における日本語待遇表現の生成
- 日本語生成に於ける対話文脈構造と代名詞省略
- 翻訳機能付きワープロ : 不安と疲れを感じさせないインタフェース
- シソーラスによるクエリー展開を用いた大規模テキスト検索
- 高速全文検索システム RetrievalExpress
- 文字ベース凝縮テキストによる全文検索方式の評価
- 単語共起によるクエリー展開を用いた大規模テキスト検索
- 語順と省略に着目した自然な日本語対話文の生成
- 対訳用例に基づく対話文翻訳における日本語生成方式
- 高速全文検索のためのフレキシブル文字列インバージョン法(1) 方式概要
- 高速全文検索のためのフレキシブル文字列インバージョン法(2)実装と評価
- 高速全文検索のためのフレキシブル文字列インバージョン法(1)方式概要
- メディア解析アプリケーションの開発を容易化する情報価値創造基盤
- アイデアインテグレーション環境
- 意識的探索作業からユーザを解放する情報提供法