共通性分析による階層的文書クラスタリングと話題抽出(情報抽出・データマイニング)
スポンサーリンク
概要
- 論文の詳細を見る
本報告では、先に提案した多文書間の共通性分析に基づく文書クラスタリング法を再帰的に適用する階層的な文書クラスタリング法を提案する。提案手法では、第1段のクラスタリングは先の提案手法を適用し、種として抽出された文書に同じ話題の文書をマージさせつつ順次クラスターを成長させていく。第2段では、構成されるクラスターの話題が揃うようにパラメータを設定して、先の提案手法を適用する。第3段では、親クラスターの文書集合で文書頻度が非常に高い単語や単語対は子クラスターに特有なものにはならないとの考えのもとに、文書頻度の高い単語や単語対を除去するという手段を更に講じる。TDT2コーパスにおける2つのイベント、"Asian Economic Crisis"及び"Monica Lewinsky Case"に対して適用することにより、各段で、親クラスターに対して説明的な話題の子クラスターが得られることを確認した。
- 一般社団法人情報処理学会の論文
- 2004-03-04
著者
関連論文
- 共通性分析による階層的文書クラスタリングと話題抽出(情報抽出・データマイニング)
- 共通性分析による文書クラスタリングの評価(分類、クラスタリング,機械学習)
- 共通性分析による文書クラスタリングの評価(分類、クラスタリング, 機械学習)(言語理解とコミュニケーション)
- 多文書間の共通性分析による文書クラスタリング
- 多文書間の共通性の分析
- トピック差分因子分析法による文書間の相違性の評価
- トピック差分因子分析法による文書間の相違性の評価
- 文書集合間の差異検出法と文書分類への応用
- 文ベクトル集合モデルによるテキスト処理 (II)
- ブーリアンクエリのベクトル展開
- 文ベクトル集合モデルによるテキスト処理