極大単語索引を用いた知的検索ソフトウェアMEISTER : 概要
スポンサーリンク
概要
- 論文の詳細を見る
単語区切りが明瞭でない日本語文書の全文検索において, 素朴な単語索引では, 辞書の不備/単語分割(形態素解析)精度の限界/未知語の存在等の要因により, 任意の文字列については検索漏れが避けられないことから, n-gram索引を用いた全文検索方式の開発が進められている。 n-gram索引は, 文章中に出現するn-gram (nは可変)を出現位置と共に記録したものであり, 検索時には, 検索文字列を構成する各n-gramに対応した出現位置の連接演算により, 任意文字列に対する全文検索を漏れなく高速に行う。しかし, n-gram索引方式には, 以下のような課題がある。(1) 索引量/検索速度: n-gram索引方式では, 通常原文書の数倍の索引容量を必要とする。また, 検索文字列長に依存して必要な連接演算が増えるため, 高頻出のn-gramを多数含むような検索文字列に対しては, 高速化が困難である。(2) 検索ノイズの除去: 任意文字列による全文検索では, 一般に検索ノイズが膨大になる。例えば, 「グラフ」という文字列で, 「グラファイト」を検索してしまう。 n-gram索引方式は, 単語という概念を持たないので, この種のノイズは除去できない。(3) 文章ランキング等, 高度な検索機能: 検索結果を利用者の検索ニーズに関連する順に整列する(ランキング)機能を持つ検索システムは, 初期のSIRE, SMART等の実験システムの段階から, 90年代に入って実用化局面を迎え, 欧米文書に対しては既にいくつかの商用検索エンジンが開発されている。通常, 関連度は, 文書中の単語頻度情報を基に算出されるが, n-gram索引方式では, 正確な単語頻度が求まらないので, 精密な評価を行うことが困難である。さらに, 適合性フィードバックなどの高度な検索機能は別途実現しなくてはならない。筆者らは, 日本語文書に対しても, 単語を単位とした索引(完全延長極大索引方式, 以下, 本稿では極大単語索引方式と呼ぶ)を構成することで, コンパクトな索引で, 任意文字列に対して漏れのない高速な全文検索が行えることを示した。極大単語索引方式は, 従来の単語索引方式とn-gram索引方式の長所を兼ね備えたものであり, さらに, 上記課題を解決することが可能である。今回我々は, その方式を拡張して文字列検索の高速化・索引作成時間の短縮・索引量の軽減を行い, 更に単語頻度情報を用いた文書ランキング等の高度検索機能を実現した知的検索ソフトウエアMEISTERを開発した。本稿では, 極大単語索引方式の原理と特長, およびMEISTERの構成と諸機能について述べる。
- 一般社団法人情報処理学会の論文
- 1997-09-24
著者
-
福重 貴雄
パナソニック株式会社
-
野本 昌子
株式会社ニューズウォッチ
-
福重 貴雄
松下電器産業(株)東京研究所
-
菅野 祐司
松下電器産業株式会社
-
稲葉 光昭
松下電器産業(株)マルチメディアシステム研究所
-
野本 昌子
松下電器産業株式会社
-
野本 昌子
松下電器産業(株)マルチメディアシステム研究所
-
佐藤 光弘
松下電器産業(株)マルチメディアシステム研究所
-
野口 直彦
松下電器産業(株)マルチメディアシステム研究所
-
稲葉 光昭
松下電器産業(株)ネットワーク開発センター
-
菅野 祐司
松下電器産業(株)ネットワーク開発センター
関連論文
- 情報家電をより身近にするオントロジー(オントロジーの進化と普及(後編))
- 英文要約システム『DIET』
- 情報家電をより身近にするオントロジー
- 情報家電オントロジーの開発とマニュアルにおける利用例(情報提示・連携技術,テーマ:「テクニカルな知識流通・共有におけるドキュメント作成・管理技術,および応用」)
- 情報家電オントロジーの開発(言語資源・文書分析)
- DT-2-4 情報家電オントロジー構築と活用に向けた取組み(2) : 構成と記述ガイドライン(DT-2.身近なところで役に立ち始めたセマンティックWeb,チュートリアル講演,ソサイエティ企画)
- DT-2-3 情報家電オントロジー構築と活用に向けた取組み(1) : 機器接続事例の検索を例として(DT-2.身近なところで役に立ち始めたセマンティックWeb,チュートリアル講演,ソサイエティ企画)
- 極大単語索引を用いた知的検索ソフトウェアMEISTER : ホームページ検索システムへの応用
- 極大単語索引を用いた知的検索ソフトウェアMEISTER : 大規模文書検索への応用
- 極大単語索引を用いた知的検索ソフトウェアMEISTER : 英語文書検索への拡張
- 極大単語索引を用いた知的検索ソフトウェアMEISTER : 関連キーワードライブラリの機能と特長
- 極大単語索引を用いた知的検索ソフトウェアMEISTER : ランキングライブラリの機能と特長
- 極大単語索引を用いた知的検索ソフトウェアMEISTER : 辞書/索引ライブラリの機能と特長
- 極大単語索引を用いた知的検索ソフトウェアMEISTER : 概要
- 単語統計情報と言語情報とを併用した新しい文書検索のモデル
- 文書構造と共起表現を用いた文書ランキング手法 (第52回全国大会(平成8年前期 於:電通大)大会優秀賞受賞論文)
- 文書構造と共起表現を用いた文書ランキング手法
- 対応分析とベイジアンネットワークを用いた文書分類(テキストマイニング技術)
- テキストマイニング : 事例紹介(「テキストマイニング」)
- 日本語処理基本システム(2) : 辞書検索系と構文解析系
- 日本語処理基本システム(1) : 全体構成
- WWWにおける情報検索技術の動向
- 全文・構造検索両立型索引方式
- 極大単語索引と複合語辞書を用いた高精度な全文検索 : 知的検索ソフトウエアMEISTERにおける単語検索機能の改善と評価
- 日本語文書に対する新しい索引検索方式 : 試作・実験および評価
- 日本語文書に対する新しい索引検索方式 : 索引作成と検索の原理
- 知的検索技術を用いたネットワ-ク・ナビゲ-ション支援システム (特集/マルチメディアネットワ-ク技術)