木構造を用いた高速な全文検索について
スポンサーリンク
概要
- 論文の詳細を見る
本稿では、テキスト中から任意の文字列を特に高速に検索するため新しいデータ構造と、それを用いた検索アルゴリズムを提案する。基本的アイデアは、一定長(L:レベル)の文字列全てについて、その文字列が出現するテキスト中の位置を検索部としてコンパクトなデータ構造に記憶する点である。この長さL用の検索部を用いることにより、キー長Lの文字列のみならず、L未満およびLを超える文字列の検索も効率的に行うことができる。本稿での提案に関連し、日本語を対象とした全文検索システムで1文字単位ないし2文字単位の転置ファイルを利用したシステムの稼働例が上げられているが、日本語の場合、文字数が多いため検索部が大きくなる問題が指摘されており、文字種に応じた複数の検索構造を作成する工夫がなされている。本稿でのレベルLが1ないし2以上の場合に関連しているが、従来の研究では、キー長がL未満の文字列の検索は扱ってない。また、複数文字単位の転置ファイルに基づいている点は共通だが、本稿で提案インデックス部は二次記憶へのアクセス回数を極力減少するデータ構造に構成されている点でも特徴を有する。提案の手法は、検索部として用いるデータ構造のみで、当該文字列を含むテキスト中の位置を知ることができるため、署名ファイル、PAT木など存在の可能性のみを知る手法に比べ、精度の高い方法と言える。また、提案の方法は、転置ファイルなど単語ごとのインデックスによるものではなく、すべての文字列を検索の対象とするものである。即ち、作成される検索高速化のためのデータ構造は、単語をはじめテキストの文法上のいかなる性質にも依存していないため、広範囲な言語、ビット列や遺伝子情報などのあらゆるストリングマッチに適用可能である。
- 一般社団法人情報処理学会の論文
- 1996-09-04
著者
関連論文
- 2Y-3 仮想計算機環境を利用した独立性の高いサーバホスティングサービスの実装(システム運用・管理,学生セッション,ネットワーク)
- SQL 質問における基数検査について
- 探索木法とその応用 ( キー検索技法 3)
- テキストデータベースからの文字列のあいまい検索と高速化
- SNS要素を用いた英単語共有型学習システムの開発(セッション1:グループウェア)
- SNS要素を用いた英単語共有型学習システムの開発(セッション1:グループウェア)
- グラムベース全文検索システムの高速化と応用
- グラムベース転置ファイルによる日本語全文検索の高速化
- 木構造を用いた高速な全文検索について
- 2ZB-8 動画投稿共有サイトの教育への利用 : 大阪教育大学の実践例(プログラミング教育・ロボット・動画・仮想空間を用いた教育,学生セッション,コンピュータと人間社会)
- D-031 ログ構造の分割インデックスシステム(データベース,一般論文)
- L-053 大学のユーザ認証システムの統合 : 大阪教育大学の場合(L分野:ネットワーク・セキュリティ)
- D-005 全文検索における精度向上 : 検索語の拡張と削除について(D分野:データベース)
- Web検索におけるリンク構造解析を利用したランキング法(Webリンク)(夏のデータベースワークショップDBWS2004)
- Web検索におけるリンク構造解析を利用したランキング法(セッション6A : Webリンク)(夏のデータベースワークショップ : DBWS2004)
- ホームページ作成を用いた高等学校数学の指導法の開発
- 大阪教育大学キャンパスネットワークGRAPESの構築と運用 II : FDDIループの再構築とATM化への取り組み
- 大阪教育大学キャンパスネットワークGRAPESの構築と運用
- B-10-137 波長チューナブル 10Gbit/s トランスポンダの一検討
- 超並列算計機におけるデータ並べ替えアルゴリズムと要求されるデータ転送能力の見積もり
- 拡張BM法による多段階圧縮ファイルの文字列検索
- n-gramに基づく全文検索システムの分散処理 : 分散索引と自立負荷分散更新
- 多段階に圧縮された補助ファイルを用いた文字列検索
- 多次元クロスバにおける全対全通信とハイパキューブおよび多次元トーラスとの通信能力の比較
- 高速な任意文字列検索
- クライアント・サーバモデルにおけるインクリメンタル質問処理
- 副問合せをもつSQL質問における最適化
- リモートデータベースに対するインクリメンタルSQL質問処理
- 線画図形検索のためのデータ構造とアルゴリズム
- ログ構造に構成された分割インデックス
- XMLDBにおけるデータ更新を考慮したモデル写像アプローチ
- XML-DB用の基数組による節点の番号付け索引構造の実装(XML 1)(夏のデータベースワークショップDBWS2004)
- XML-DB用の基数組による節点の番号付け索引構造の実装(セッション3B : XML1)(夏のデータベースワークショップ : DBWS2004)
- コンパクトなグラムベース索引 : 可変長グラムの固定長コーディング