高速全文検索のためのフレキシブル文字列インバージョン法(1)方式概要
スポンサーリンク
概要
- 論文の詳細を見る
インターネットの爆発的な普及やイントラネット構築ブームを背景に、大規模で多様なテキスト情報の効率よい管理・検索に対するニーズは非常な高まりを示している。対象となるテキストは新しい話題・用語を次々に取り込んで増加し、幅広い層のユーザが多様な視点から検索することを考えると、テキストをあらかじめ少ないキーワード集合で抽象化しておくアプローチでは限界がある。テキスト全文をそのまま検索対象とし、大規模なテキスト集合に対する高速な全文検索を実現する技術が望まれている。専用ハードウェアを用いようと大規模テキストの全文走査はもはや現実的でない。したがって、高速全文検索の実現にあたっては、インバーテッドファイルの設計が重要なポイントになる。インバーテッドファイルの形式は、(1)キーとしてテキストから単語を取り出すか(=1a)/文字列を取り出すか(=1b)、(2)キーに対応づける位置情報をテキストIDのみとするか(=2a)/テキストID+オフセット(テキスト内位置)とするが(=2b)、の組み合わせにより4通りに大別できる。キーとして単語を取り出すタイプ(h×2a)(h×2b)では、形態素解析誤りや未知語に起因するキーの登録洩れや誤登録が発生する(結果として検索洩れを生む)。また、キー文字列にテキストIDを対応づけるタイプ(1b×2a)は、検索条件語を複数の部分文字列に分解してインバーテッドファイルと照合するだけでは検索ノイズ(過剰ヒット)が避けられない。後処理として全文走査を実行すれば検索ノイズは除去できるが、その場合、全文走査による検索レスポンスの低下と、オリジナル文書形式と別にプレインテキストも保存せねばならない連用上のオーバヘッドが発生する。本論文で提案するフレキシブル文字列インバージョン法(以下ではFSI法と略す)は、(1b×2b)タイプに属する。FSI法では、検索レスポンスの高速化のために位置情報データの読み出し書を削減する方針をとり、文字列統計に基づくキー文字列長の設定と縮退文脈の付与、位置情報データの圧縮手法などを導入した点が特長である。
- 一般社団法人情報処理学会の論文
- 1996-09-04
著者
関連論文
- ペン校正支援システム
- ボトムアップ/トップダウン処理を融合した手書き文字列読み取り知識処理
- 手書き文字列読み取りのための単語連鎖制約に基づく効率的探索と棄却
- 効率的探索とトップダウン的検証を組み合わせた手書き住所読み取り知識処理
- A-4 テキストからの類義語抽出手法とその評価(概念と言語(I))
- 手書き文字列読み取りのための単語列探索アルゴリズム : 文字タグ法
- 手書き住所読取りにおけるパタン処理と連携した住所知識処理方式
- 共起類似性に基づく同義語の抽出
- 口語的表現を含む日本語文の形態素解析の実現と評価
- 口語的表現を含む日本語文の形態素解析の実現と評価
- 口語的表現を含む日本語文の形態素解析
- 日本語文書校正支援システムSt.WORDS
- D-2 Support Vector Machineを用いた地域情報ページの自動分類(Webコンテンツ処理,D.データベース)
- モバイルサーチエンジンWithAirの試作と評価
- モバイルサーチエンジンWithAirの試作と評価
- 冗長分散格納によるPCクラスタ上の動的負荷均衡化
- 4T-3 WWW検索サービスにおけるトレンド語抽出
- 大規模テキスト並列検索エンジンRetrievalExpress (1) : 並列検索方式
- 辞書およびパターンマッチルールの増強と品質強化に基づく日本語固有表現抽出
- 予測ペン入力インタフェースとその手書き操作削減効果
- ペンベース文書作成(2) : 予測ペン入力方式
- ペンベース文書作成(1) : 試作システム
- 自然言語処理を用いたペン入力効率向上手法の提案
- WWW情報検索技術と評価の問題(情報検索システムの力くらべ : テストコレクションによる評価)
- シソーラスによるクエリー展開を用いた大規模テキスト検索
- 高速全文検索システム RetrievalExpress
- 単語共起によるクエリー展開を用いた大規模テキスト検索
- 大規模テキスト並列検索エンジンRetrievalExpress (2) : 構造化テキスト検索方式
- 高速全文検索のためのフレキシブル文字列インバージョン法(1) 方式概要
- 高速全文検索のためのフレキシブル文字列インバージョン法(2)実装と評価
- 高速全文検索のためのフレキシブル文字列インバージョン法(1)方式概要