文書の自動分類のための、辞書を使わないテキストのパタン化方式
スポンサーリンク
概要
- 論文の詳細を見る
全文データベースなどの発展・普及にともない、膨大なテキストの中から必要なものだけを選択する技術が重要になってきている。文書データベースなどの検索を目的として収集・構造化されたものにおいてさえ、実際にある目的をもって、関連文献を手に入れることは多大な労力を要する。このためにさまざまな検索方式が研究され、一部は実用化されているが、それらの共通の基礎技術としてテキストのインデキシングが重要である。これは、自然言語でかかれたテキストを、計算機で処理するためにパタン化する手法である。例えば、テキストの内容を表す重要語句をテキスト中から取り出し、これに重みをつけるなどしたベクトルによってテキストを表現しようというものである。それ以降の検索処理はこのベクトル表現に対して行われる。このため、インデキシングの方法の良否が検索・分類などのテキスト処理全体に占める割合は大きい。われわれは、自己組織型情報ベースの要素技術として、ニューラルネットワーク等を用いた文書分類方式を研究してきたが、これまで、テキストのパタン化には既存のツールを利用してきた。このシステムは、巨大な単語辞書を利用してテキスト中から単語を切り出すものであるが、辞書の作成・メンテナンスなどは費用や労力の点で大変であり、また品質の点でも新出語の不足、質的なバラツキなどがありうる。このため、ある基準に沿って自動的にテキストから語句を抽出する方式が望まれる。本研究では、プレーンなテキストから、定型的な処理によって意味を持つ文字列を取り出す方式について述べる。
- 1994-03-07
著者
関連論文
- 3D Stroller : 三次元情報空間散策システム
- 単語集合の自動構造化機能を持つ「情報散策」方式
- 単語集合の自動構造化機能を持つ「情報散策」方式
- 文書の自動分類のための、辞書を使わないテキストのパタン化方式