文字ベース凝縮テキストによる全文検索方式の評価
スポンサーリンク
概要
- 論文の詳細を見る
電子化されたテキストの増加に伴って, 目的のテキストを探し出すための検索システムの需要が高まっている。現在, 新聞記事, 特許公報, ホームページなど大量テキストを扱う検索システムが実用化されており, 検索速度を維持しながらファイル容量を抑えることが課題のひとつとなっている。多くの検索システムで実用化されている方式として, 全文字の位置をインデックス登録する検索方式がある。この方式は, 単語インデックス方式と比較し, 単語分割の曖昧さや誤りによる検索もれがない, 任意の文字列で検索できるなどの長所があるが, 高速検索のために大きなインデックスを必要とする。われわれが開発しているフレキシブル文字列インバージョン法では, 検索速度を重視した場合, インデックス容量が原テキストの2-2.5倍になる。容量を減らすため, 不要な箇所を削除した凝縮テキストを利用する方法がある。畠山らのシステムでは, テキストを字種ごとに分割してひらがなと重複を除いた凝縮テキストを使用する。このシステムでは, 複数の字種を含む検索語は, 凝縮テキストで絞り込んでから原テキストを再検索しているため, 検索速度が遅くなる問題がある。ほかに, 日本語解析を利用した不要語除去の方法があるが, 解析誤りが検索誤りを起こし, しかも, 誤りがテキストに依存するため事前に予想しにくいという問題がある。われわれは, 検索速度を落とさずに容量を減らし, かつ, 動作が明解な検索システムを実現するため, 削除する不要文字を指定して凝縮テキストを作成する方式を開発した。本方式では, 検索にあまり使わない文字を不要文字に指定することで, 再検索を減らすことができる。また, 不要文字を含まない語は, もれや過剰なく検索できることが保証される。本論文では, 凝縮テキストの作成方式, 特許公開公報を用いた容量評価, 検索語の調査結果を報告する。凝縮テキスト容量は原テキストの20.3%, 凝縮テキストで検索できる検索語の割合は97.6%と本方式の有効性を確認した。
- 一般社団法人情報処理学会の論文
- 1997-09-24
著者
-
山田 洋志
日本電気株式会社サービスプラットフォーム研究所
-
赤峯 享
NEC 情報メディア研究所
-
赤峯 享
NECヒューマンメディア研究所
-
山田 洋志
NECヒューマンメディア研究所
-
会森 清
NEC
-
会森 清
NECC&Cメディア研究所
関連論文
- 日本語新聞記事からの固有名詞情報抽出
- 2C-3 利用者状況に適した方式で情報を推薦する「マルチモード推薦システム」の実現(コンテンツ推薦,一般セッション,データベースとメディア)
- 5B-6 行動情報を利用した携帯端末への情報配信システムアーキテクチャ(コンテンツ推薦,一般セッション,データベースとメディア)
- 日本語入力による英文作成支援インタフェース
- 冗長インデクスを用いた OCR テキスト検索システム
- 日本語入力による英文作成支援システム : 辞書学習
- 日本語入力による英文作成支援システム : 長文パターンによる翻訳
- 概念表現を用いた自動通訳システムINTERTALKER
- 5B-7 携帯端末へのPush配信サービスにおける配信スケジュール方式(コンテンツ推薦,一般セッション,データベースとメディア)
- 5B-1 大規模テキストから位置情報および特徴語を抽出するルールの検討(コンテンツ推薦,一般セッション,データベースとメディア)
- 冗長分散格納によるPCクラスタ上の動的負荷均衡化
- 5B-5 行動履歴を利用したコンテンツ推薦方式の提案(コンテンツ推薦,一般セッション,データベースとメディア)
- 日本語文構造分類ツール
- キーワード方式べた書き文かな漢字変換システムにおける付属語情報を用いた単語のあてはめ
- べた書き文の単語分割におけるエラーの抽出法と自動訂正
- 日本語文の誤り検出に関する研究
- 大規模テキスト並列検索エンジンRetrievalExpress (1) : 並列検索方式
- 日本語入力による英文作成支援システム : 仮名漢字変換から仮名英語変換へ
- 対話文の英日機械翻訳における日本語待遇表現の生成
- Webページからのタイプ別情報抽出・分類方式
- Webページからのタイプ別情報抽出・分類方式
- 2P-2 近接演算による数値情報検索の精度改善
- 数値情報を用いたテキスト検索方式の提案と評価
- インターネット多角的検索システムOTROS : データベースを用いたクエリ展開方式の提案
- インターネット多角的検索システムOTROS : 数値情報の抽出と検索
- インターネット多角的検索システムOTROS : 全体の概要と構成
- 固有名詞分類属性を利用した情報検索
- 予測ペン入力インタフェースとその手書き操作削減効果
- 大語彙かな漢字変換 : 未登録語と区切り誤りの減少
- 日本語生成に於ける対話文脈構造と代名詞省略
- 翻訳機能付きワープロ : 不安と疲れを感じさせないインタフェース
- シソーラスによるクエリー展開を用いた大規模テキスト検索
- 情報検索におけるサーチャの知識を用いた自然言語からの検索式生成
- 高速全文検索システム RetrievalExpress
- 文字ベース凝縮テキストによる全文検索方式の評価
- 単語共起によるクエリー展開を用いた大規模テキスト検索
- 語順と省略に着目した自然な日本語対話文の生成
- 対訳用例に基づく対話文翻訳における日本語生成方式
- 大規模テキスト並列検索エンジンRetrievalExpress (2) : 構造化テキスト検索方式
- 高速全文検索のためのフレキシブル文字列インバージョン法(2)実装と評価
- 混ぜ書き対応単語辞書の作成とその応用
- 大語彙辞書を用いたかな漢字変換についての考察
- 文書作成履歴を利用した校正支援機能
- FEP型校正支援システムの試作
- 連語辞書の自動作成と評価
- 漢字混じりかな漢字変換用単語辞書の作成
- 日本語解析性能と単語辞書との関係についての考察
- 大語彙かな漢字変換 : 連語の効果について