文字ベース凝縮テキストによる全文検索方式の評価
スポンサーリンク
概要
- 論文の詳細を見る
電子化されたテキストの増加に伴って, 目的のテキストを探し出すための検索システムの需要が高まっている。現在, 新聞記事, 特許公報, ホームページなど大量テキストを扱う検索システムが実用化されており, 検索速度を維持しながらファイル容量を抑えることが課題のひとつとなっている。多くの検索システムで実用化されている方式として, 全文字の位置をインデックス登録する検索方式がある。この方式は, 単語インデックス方式と比較し, 単語分割の曖昧さや誤りによる検索もれがない, 任意の文字列で検索できるなどの長所があるが, 高速検索のために大きなインデックスを必要とする。われわれが開発しているフレキシブル文字列インバージョン法では, 検索速度を重視した場合, インデックス容量が原テキストの2-2.5倍になる。容量を減らすため, 不要な箇所を削除した凝縮テキストを利用する方法がある。畠山らのシステムでは, テキストを字種ごとに分割してひらがなと重複を除いた凝縮テキストを使用する。このシステムでは, 複数の字種を含む検索語は, 凝縮テキストで絞り込んでから原テキストを再検索しているため, 検索速度が遅くなる問題がある。ほかに, 日本語解析を利用した不要語除去の方法があるが, 解析誤りが検索誤りを起こし, しかも, 誤りがテキストに依存するため事前に予想しにくいという問題がある。われわれは, 検索速度を落とさずに容量を減らし, かつ, 動作が明解な検索システムを実現するため, 削除する不要文字を指定して凝縮テキストを作成する方式を開発した。本方式では, 検索にあまり使わない文字を不要文字に指定することで, 再検索を減らすことができる。また, 不要文字を含まない語は, もれや過剰なく検索できることが保証される。本論文では, 凝縮テキストの作成方式, 特許公開公報を用いた容量評価, 検索語の調査結果を報告する。凝縮テキスト容量は原テキストの20.3%, 凝縮テキストで検索できる検索語の割合は97.6%と本方式の有効性を確認した。
- 一般社団法人情報処理学会の論文
- 1997-09-24
著者
-
山田 洋志
日本電気株式会社サービスプラットフォーム研究所
-
赤峯 享
NEC 情報メディア研究所
-
赤峯 享
NECヒューマンメディア研究所
-
山田 洋志
NECヒューマンメディア研究所
-
会森 清
NEC
-
会森 清
NECC&Cメディア研究所
関連論文
- 日本語新聞記事からの固有名詞情報抽出
- 2C-3 利用者状況に適した方式で情報を推薦する「マルチモード推薦システム」の実現(コンテンツ推薦,一般セッション,データベースとメディア)
- 5B-6 行動情報を利用した携帯端末への情報配信システムアーキテクチャ(コンテンツ推薦,一般セッション,データベースとメディア)
- 日本語入力による英文作成支援インタフェース
- 冗長インデクスを用いた OCR テキスト検索システム
- 日本語入力による英文作成支援システム : 辞書学習
- 日本語入力による英文作成支援システム : 長文パターンによる翻訳
- 概念表現を用いた自動通訳システムINTERTALKER
- 5B-7 携帯端末へのPush配信サービスにおける配信スケジュール方式(コンテンツ推薦,一般セッション,データベースとメディア)
- 5B-1 大規模テキストから位置情報および特徴語を抽出するルールの検討(コンテンツ推薦,一般セッション,データベースとメディア)