高速全文検索のためのフレキシブル文字列インバージョン法(2)実装と評価
スポンサーリンク
概要
- 論文の詳細を見る
筆者らは、インバーティッドファイルを用いた高速な全文検索方式としてフレキシブル文字列インバージョン法(以下ではFSI法と略す)を提案した[1]。FSI法は、文字列をキーとしてテキストIDとテキスト内位置を対応づけたインバーティッドファイルを用いることで、任意の文字列に対する検索をオリジナルテキストを参照せずに行うタイプの検索方式である。このような検索方式では、キー文字列長を1文字にした場合、位置情報データを読み出す処理がボトルネックとなり十分な検索速度が得られないという問題がある。一方、キー文字列長を長くした場合、キー文字列の種類の指数オーダーでの増加、さらにインバーティッドファイルの容量の増大という問題が生じる。そこで、FSI法では、(1)キー文字列長の字種別の設定、(2)縮退文脈の付与、(3)位置情報データの圧縮を行うことで、位置情報データの読み出し量の削減を図り、さらに、検索速度とインバーティッドファイル容量のトレードオフを、パラメータ(字種別のキー文字列長、文字列別の縮退文脈幅)により柔軟に調整可能にしている。本論文では、まず、新聞記事を対象に日本語文字列の出現頻度を測定し、FSI法の字種別キー文字列長の設定方針を示す。次に、文字列の出現頻度の統計情報を利用した縮退文脈幅の設定の効果を示す。最後に、実際にFSI法を計算機上に実装してファイル容量と検索速度を評価した結果を報告する。
- 一般社団法人情報処理学会の論文
- 1996-09-04
著者
関連論文
- D-2 Support Vector Machineを用いた地域情報ページの自動分類(Webコンテンツ処理,D.データベース)
- モバイルサーチエンジンWithAirの試作と評価
- モバイルサーチエンジンWithAirの試作と評価
- 日本語入力による英文作成支援インタフェース
- 冗長インデクスを用いた OCR テキスト検索システム
- 日本語入力による英文作成支援システム : 辞書学習
- 日本語入力による英文作成支援システム : 長文パターンによる翻訳
- 概念表現を用いた自動通訳システムINTERTALKER
- 冗長分散格納によるPCクラスタ上の動的負荷均衡化
- 4T-3 WWW検索サービスにおけるトレンド語抽出
- 日本語文構造分類ツール
- 大規模テキスト並列検索エンジンRetrievalExpress (1) : 並列検索方式
- 日本語入力による英文作成支援システム : 仮名漢字変換から仮名英語変換へ
- 対話文の英日機械翻訳における日本語待遇表現の生成
- 入力文字列予測表示を導入した日本語文章の入力法
- 日本語生成に於ける対話文脈構造と代名詞省略
- 翻訳機能付きワープロ : 不安と疲れを感じさせないインタフェース
- シソーラスによるクエリー展開を用いた大規模テキスト検索
- 高速全文検索システム RetrievalExpress
- 文字ベース凝縮テキストによる全文検索方式の評価
- 単語共起によるクエリー展開を用いた大規模テキスト検索
- 語順と省略に着目した自然な日本語対話文の生成
- 対訳用例に基づく対話文翻訳における日本語生成方式
- 大規模テキスト並列検索エンジンRetrievalExpress (2) : 構造化テキスト検索方式
- 高速全文検索のためのフレキシブル文字列インバージョン法(1) 方式概要
- 高速全文検索のためのフレキシブル文字列インバージョン法(2)実装と評価
- 高速全文検索のためのフレキシブル文字列インバージョン法(1)方式概要