部分空間における特有因子分析を用いた文書分類(自然言語処理)
スポンサーリンク
概要
- 論文の詳細を見る
機械学習による文書分類では,各文書クラスにおいて存在すべき特徴と存在すべきでない特徴の両方を強調することにより精度が高められている.ところが,実際にはどのような話題の組合せも自由であるはずなので,存在すべきでない特徴を用いるのは適当でないように思われる.そこで本論文では特有因子分析法により抽出された存在すべき特徴のみを用いた文書分類法を提案する.特有因子分析法は二つの文書集合の一方が比較相手に対して有する特有な成分を,すべての文ベクトルの射影値の二乗和に関する着目文書集合と比較相手の文書集合との比を最大にするような射影軸として求めるものである.本論文では雑音の影響を軽減するため,これを単語空間ではなく全文書集合の単語共起行列の一定個の固有ベクトルの張る部分空間において行う.またクラスの判別は線形判別分析を用いて行う.Reuters-21578における文書数の多い10クラスを用いた実験では,サポートベクタマシンの90.9%を上回る93.63%のF値が得られた.また,異なるクラスのシングルラベルの文書同士を人工的に合体させた文書の分類実験により,合体による再現率の低下はサポートベクタマシンに比べ著しく少ないことが確認された.
- 2008-09-01
著者
関連論文
- 斜交LSI法による文書クラスタリング(データマイニング)
- 部分空間における特有因子分析を用いた文書分類(自然言語処理)
- 多文書間の共通性分析に基づく文書クラスタリング(情報検索)
- トピック特有因子分析法と文書分類への応用(情報の分類)