全文検索用文字成分表の一圧縮方式
スポンサーリンク
概要
- 論文の詳細を見る
文書登録時に人手によるキーワード選定などが不要で、検索時には自由なキーワードでの検索が可能な全文検索システムが注目されている。そこで用いられる検索手法は、全文走査法、転置法、シグネチャファイル法の3種類に大別できる。全文走査法は単独では検索速度に限界があり、転置法は、全文DB本体に加えた転置ファイルの容量オーバヘッドが大きいことや、日本語では自動単語分割(形態素解析)での誤りが避けられないことなどが問題になる。そこで、実用システムではシグネチャファイル法と全文走査法を粗み合わせた多段検索の形態がよく用いられている。シグネチャファイル法は、転置法に比べると容量オーバヘッドが小さいが、過剰検出(ゴミ)が発生する。多段検索は、まずシグネチャファイル法で全文DBを荒く絞り込み、その絞り込んだ範囲のみに全文走査法を適用する(結果としてゴミが除去できる)方式である。シグネチャの作成法として、英文では単語のハッシュ値を文書ごとに重ね焼きする方法が一般的である。それに対して日本語文については、単語分かち書きの習慣がない反面、文字自体が文書内容の表現力をある程度もっていることから、文字成分表をシグネチャファイルとする方式が考案された。一般的なシグネチャファイルの圧縮については既に各種方式が考案されているが、本稿では文字成分表に特有の圧縮方式に絞って比較検討する。そして、絞り込み効果をできる限り低下させずに圧縮する方式を提案し、その効果を示す。
- 一般社団法人情報処理学会の論文
- 1993-09-27
著者
関連論文
- Web文書集合からの意見情報抽出と着眼点に基づく要約生成(Webマイニング)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- Web文書集合からの意見情報抽出と着眼点に基づく要約生成(Webマイニング)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- 日本語情報検索システム評価用テストコレクション BMIR-J2
- 意見抽出を目的とした機械学習による属性-評価値対同定(属性抽出)
- 文字タグ法による手書き住所読み取りの評価
- 手書き住所読取りのための町名検索アルゴリズム : 文字タグ法
- D-2 Support Vector Machineを用いた地域情報ページの自動分類(Webコンテンツ処理,D.データベース)
- モバイルサーチエンジンWithAirの試作と評価
- モバイルサーチエンジンWithAirの試作と評価
- 情報検索システム評価用データベースの構築の提案
- 意見抽出のための評価表現の収集
- インターネットからの評判情報検索(WWW上の情報の知的アクセスのためのテキスト処理)
- テキストマイニングによる評価現象の収集
- D-1 意見分析システムにおける意見抽出方式の検討と評価(Webコンテンツ処理,D.データベース)
- インターネットからの評判情報検索
- インターネットからの評判情報検索
- 大規模テキスト並列検索エンジンRetrievalExpress (1) : 並列検索方式
- 全文検索用文字成分表の一圧縮方式
- 文章解析アクセラレータ(2) : 接続検定マシンMONCの試作と評価
- 形態素抽出マシンMEX-IIの試作と評価
- 形態素抽出マシンMEX-IIの概要
- ア***ロセッサによる文脈自由言語の並列認識アルゴリズム
- 文章解析アクセラレータ(1) : 形態素抽出マシンの試作
- 多重照合型形態素抽出方式に関する検討
- 文字列検索LSIを用いた国語辞書システムの構築法
- 文構造を有する日本語テキストエディタJESS
- 日本語文章作成支援システムCOMET
- 招待講演:新世代検索ポータル技術 (2001年情報学シンポジウム講演論文集--21世紀の情報化社会・ネットビジネスを支える情報学/情報技術) -- (セッション5:情報技術の視点から)
- 「情報検索の新たな展開 : テストコレクションからサーチエンジンまで」
- WWWサーチエンジン (特集 情報検索)
- Webサーチエンジンの基本技術と最新動向(上)基本技術
- Webサーチエンジンの基本技術と最新動向(下)最新技術
- WWW情報検索技術と評価の問題(情報検索システムの力くらべ : テストコレクションによる評価)
- 農業情報の検索・ナビゲーション (特集 情報化がもたらす新しい農業・農村)
- 検索エンジンの仕組みと技術の発展(インターネット検索エンジン)
- モバイルユーザ向け情報選別配信技術
- 目的および個人に特化したサーチエンジンの開発 (「Webシステムにおける情報獲得支援技術」)
- 4P-9 組合せ情報フィルタ方式の信頼度を用いた精度改良