大規模テキスト並列検索エンジンRetrievalExpress (1) : 並列検索方式

概要

論文の詳細を見る
今日, インターネットを介して極めて膨大なテキスト情報にアクセスすることが可能になり, また, 新聞・特許などの大規模なテキスト情報をデジタル出版(CD-ROMなど)の形態で利用することも可能になっている。このようなテキスト情報を有効活用するためには, 高速な全文検索技術が不可欠である。高速全文検索の要となるのは, インデックス(インバーテッドファイル)の形式とそのマッチングアルゴリズムである。日本語のようなべた書きテキストを対象として高速かつ洩れのない全文検索を実現するには, 文字組をキーとして, その出現位置(テキストID+オフセット)を記録するインデックス形式が有効なことが知られている。筆者らの開発したフレキシブル文字列インバージョン法では, 字種別キー文字列長, 縮退文脈, 高頻度キー文字列用サブインデックスなどを, 検索対象テキストの文字列統計に適合させることで, 検索レスポンスを改善した。このようなインデックス形式/マッチングアルゴリズムの工夫に加え, 検索プロセスあるいはマシン構成を並列化することでスケーラブルな検索性能を提供することが, 応用システム構築においては非常に重要である。すなわち, 次第に増加していく検索対象テキスト量や, 同時アクセスするユーザ数などに応じて, 高速な検索レスポンスを確保できるような拡張性のあるアーキテクチャが必要になる。全文検索における並列化のアプローチは, 既にインターネット上のディレクトリサービスなどで実績があるようだが, 並列化の単位・方式・効果などに関する議論は必ずしも十分ではない。そこで, 本稿では, フレキシブル文字列インバージョン法をベースとした検索エンジンRetrievalExpressについて, 並列検索方式(インデックス分割による並列化, 多重処理による並列化)とその評価結果を報告する。
1997-09-24

大規模テキスト並列検索エンジンRetrievalExpress (1) : 並列検索方式

スポンサーリンク

概要

著者

関連論文

スポンサーリンク