文書集合間の差異検出法と文書分類への応用
スポンサーリンク
概要
- 論文の詳細を見る
本報告では、先ず2つの文書集合間の差異検出法を提案する。各文書を文ベクトルの集合で表現したとき、提案手法では、全文ベクトルの射影値の2乗和に関する両文書集合間の比を最大にするような射影軸を一般固有値問題の固有ベクトルとして求め、文書集合間のトピックの差を表す因子とする。このような因子を、ある着目クラスの文書集合と既存の分類系で着目クラスに誤分類された文書集合との間で求め、着目クラスで出現するが他のクラスでは出現しにくい特徴、反対に他のクラスでは出現するが着目クラスで出現しにくい特徴の抽出に用いることができる。既存の分類系をkNNとし、このような特徴を用いる分類系を併用した結果、Reuters-21578に対しF値はkNN単独の83.69%から87.14%に向上した。
- 一般社団法人情報処理学会の論文
- 2002-03-04
著者
関連論文
- 共通性分析による階層的文書クラスタリングと話題抽出(情報抽出・データマイニング)
- 共通性分析による文書クラスタリングの評価(分類、クラスタリング,機械学習)
- 共通性分析による文書クラスタリングの評価(分類、クラスタリング, 機械学習)(言語理解とコミュニケーション)
- 多文書間の共通性分析による文書クラスタリング
- 多文書間の共通性の分析
- トピック差分因子分析法による文書間の相違性の評価
- トピック差分因子分析法による文書間の相違性の評価
- 文書集合間の差異検出法と文書分類への応用
- 文ベクトル集合モデルによるテキスト処理 (II)
- ブーリアンクエリのベクトル展開
- 文ベクトル集合モデルによるテキスト処理