多文書間の共通性分析による文書クラスタリング
スポンサーリンク
概要
- 論文の詳細を見る
本報告では、多文書間の共通性分析による文書クラスタリング法を提案する。文書クラスタリングでは同じトピックを述べた文書係グループ化される。従って、同じクラスターに属する文書群には何らかの共通性があるはずである。また、各トピックにはトピック特有の単語や単語対が存在する。提案手法はこれらの点に着目し、各文書の着目クラスターへの近さを求めるときに、着目クラスターに特有でない単語や単語対の影響を排除しつつ着目クラスターの共通情報を用いるようにする。TDT2のコーパスを用いた実験により、適切な数のクラスターが求められること、各文書が高い精度でクラスタリングされることを確認した。
- 一般社団法人情報処理学会の論文
- 2003-03-06
著者
関連論文
- 共通性分析による階層的文書クラスタリングと話題抽出(情報抽出・データマイニング)
- 共通性分析による文書クラスタリングの評価(分類、クラスタリング,機械学習)
- 共通性分析による文書クラスタリングの評価(分類、クラスタリング, 機械学習)(言語理解とコミュニケーション)
- 多文書間の共通性分析による文書クラスタリング
- 多文書間の共通性の分析
- トピック差分因子分析法による文書間の相違性の評価
- トピック差分因子分析法による文書間の相違性の評価
- 文書集合間の差異検出法と文書分類への応用
- 文ベクトル集合モデルによるテキスト処理 (II)
- ブーリアンクエリのベクトル展開
- 文ベクトル集合モデルによるテキスト処理