共通性分析による文書クラスタリングの評価(分類、クラスタリング, 機械学習)(言語理解とコミュニケーション)
スポンサーリンク
概要
- 論文の詳細を見る
本報告では、先に提案した多文書間の共通性分析に基づく非階層的な文書クラスタリング法の評価結果について述べる。提案手法では、種として抽出された文書に同じ話題の文書をマージさせつつ順次クラスターを成長させていく。提案手法は、文書・クラスター間の類似度を求める際に、単語共起の情報をも用いた新しい類似度尺度を用いていること、その時点のクラスターの特有単語、単語対を選択的に用いることを特長としている。 TDT2のコーパスから選択した21イベント6788文書、31イベント7306文書、38イベント7546文書のそれぞれに対し、検出クラスター数21、30、36、クラスタリング精度95.17%、95.09%、94.41%を得た。
- 一般社団法人電子情報通信学会の論文
- 2003-10-30
著者
関連論文
- 共通性分析による階層的文書クラスタリングと話題抽出(情報抽出・データマイニング)
- 共通性分析による文書クラスタリングの評価(分類、クラスタリング,機械学習)
- 共通性分析による文書クラスタリングの評価(分類、クラスタリング, 機械学習)(言語理解とコミュニケーション)
- 多文書間の共通性分析による文書クラスタリング
- 多文書間の共通性の分析
- トピック差分因子分析法による文書間の相違性の評価
- トピック差分因子分析法による文書間の相違性の評価
- 文書集合間の差異検出法と文書分類への応用
- 文ベクトル集合モデルによるテキスト処理 (II)
- ブーリアンクエリのベクトル展開
- 文ベクトル集合モデルによるテキスト処理