意味属性の学習結果にもとづく文書自動分類方式
スポンサーリンク
概要
- 論文の詳細を見る
文書自動分類の従来の研究は,(1)単語表記や漢字表記の統計的な情報を用いた方法と,(2)分類体系に依存した言語情報や知識を使った方法に分けることができる.(1)は,処理が分類体系に依存しないので汎用性は高いが,単語表記等の表層的な情報しか使っていないので精度が低くなるという欠点がある.(2)は,分類体系に依存した情報を使っているので精度は高い反面,汎用性に乏しいという欠点がある.そこで,本論文では,(1)の手法を,分類体系と独立に作成した意味属性体系に適用する方法を提案する.この方法では,まず,正解の分類例(文書とその分類先)をもとに,各分類分野ごとに偏って出現する意味属性をシステムが自動的に学習する.次に,この学習結果を用いて,未分類文書の分類を行う方法である.この方法は,分類体系を変更しても,それに対応した分類例(学習用文書)さえ用意すれば良く,用いている意味属性体系は変更する必要はないという意味での汎用性を確保できる.新聞記事を対象とした実験において,従来からの単語表記のみを用いた方式と比べ,再現率を評価基準にすると,12%〜10%向上し,有効性を確認した.
- 一般社団法人情報処理学会の論文
- 1992-09-15