トピック特有因子分析法と文書分類への応用(情報の分類)
スポンサーリンク
概要
- 論文の詳細を見る
高精度な文書分類を図るには, 各クラスに特有な特徴を抽出して使用することが重要である.本論文では, 与えられた2つの文書集合の一方が他方に対して有する特有な話題の分析方法を提案する.各文書を文ベクトルの集合で表現したとき, 提案手法では, 全文ベクトルの射影値の2乗和に関する着目文書集合と他方の文書集合との比を最大にするような射影軸を一般固有値問題の固有ベクトルとして求め, 着目文書集合に特有な話題を表す因子とする.このような因子をある着目クラスの文書集合と, 既存の分類系で着目クラスに誤分類された文書集合との間で求めることにより, 着目クラスでは出現するが他のクラスでは出現しにくい特徴, 反対に他のクラスでは出現するが着目クラスには出現しにくい特徴の抽出に用いることができる.既存の分類系をkNNとし, このような特徴を用いる分類系を併用した結果, Reuters-21578のテストデータに対するF値はkNN単独の83.69%から87.27%に向上した.
- 一般社団法人情報処理学会の論文
- 2005-05-15
著者
関連論文
- 斜交LSI法による文書クラスタリング(データマイニング)
- 部分空間における特有因子分析を用いた文書分類(自然言語処理)
- 多文書間の共通性分析に基づく文書クラスタリング(情報検索)
- トピック特有因子分析法と文書分類への応用(情報の分類)