MIIDAS:情報の適合的選別による文書フィルタリング

概要

論文の詳細を見る
我々は, 情報集配信サービスMIIDASにより, ユーザーに必要な様々な情報をフィルタリング, 分類・検索, 活用・発信するためのプラットフォームを提供することを目指している。本稿では, このうち, 我々が取り組んでいるテキスト情報に対するフィルタリングシステムの研究開発に関する報告を行なう。現在, 尤度の推定にベイズの定理を用いた単語ベースモデルによるフィルタリングシステムを実現し, 新聞記事情報を対象としたフィルタリングサービスを運用している。単語ベースモデルにおいて, 文書中に出現する全単語に対して単語空間を設定すると, 大量の文書情報を扱う場合に単語数の増加による単語空間の次元数の爆発という困難が生じる。このため, 単語空間の設定のための重要語の選別が不可欠となる。単語空間中で, 自立語以外の単語は単語自身が独立して意味を持たないため, 単語ベースモデルのための単語空間として適切ではない。さらに単語ベースモデルにおける単語空間の設定には, 以下の二つの問題がある。(1) 一般的な語義を持つ単語や語義の曖昧性を持つ単語は, 文脈に依存して語義や用法が変化する。単語ベース, モデルでは, これらの単語の文脈上の語義や用法の違いを区別することができないため, 語義によって異なる本来の統計分布とは異なる扱いとなる。これらの単語の単語空間を占める割合が高くなると, 尤度の推定におけるこれらの単語からの寄与により, 精度の低下が引き起こされる。(2) 日本語の文書に関しては形態素解析の語切り誤りにより, カテゴリを特定する寄与が大きい固有名詞や複合語などが分割されてしまうという問題がある。本稿では, 上記の二つの問題に対して(1)文書のカテゴリを特定する寄与の大きい単語のみを選別する方法, および(2)固有名詞の追加による分割された固有名詞の一単語としての取扱い, の方法を用いることにより, 上記の問題を解決したのでその方法と可能性について示す。
一般社団法人情報処理学会の論文
1997-09-24

MIIDAS:情報の適合的選別による文書フィルタリング

スポンサーリンク

概要

著者

関連論文

スポンサーリンク