多文書間の共通性分析に基づく文書クラスタリング(情報検索)
スポンサーリンク
概要
- 論文の詳細を見る
本論文では多文書間の共通性分析に基づく非階層的な文書クラスタリング法を提案する.文書クラスタリングにおいては,同じ話題を有する文書がグループ化されるので同じクラスタに属する文書にはなんらかの共通性が存在するはずである.また各話題には特有の単語や単語対が存在する.提案手法ではこのような点に着目し,文書・クラスタ間の類似度を,対象文書とその時点のクラスタに含まれる文書の共通情報との間で,単語の生起情報ばかりでなく共起情報も用いて定義する.また,話題特有の単語や単語対を用いて類似度を算出し,複数の話題に共通する情報の影響を排除する.提案手法ではクラスタは1つずつ検出され,しかるべき方法で抽出された種文書と同じ話題の文書をマージさせつつ順次クラスタを成長させるという処理が繰り返される.TDT2のコーパスから選択した21イベント6,788文書,31イベント7,306文書,38イベント7,546文書のそれぞれに対し,検出クラスタ数21,30,36,クラスタリング精度95.17%,95.09%,94.82%を得た.また,上記の38イベント7,546文書に対するkNN(教師ありの分類法)の分類精度は97.02%であり,提案手法は教師なしでありながら,教師ありの分類手法に近い精度が得られることが確認された.
- 一般社団法人情報処理学会の論文
- 2006-06-15
著者
関連論文
- 斜交LSI法による文書クラスタリング(データマイニング)
- 部分空間における特有因子分析を用いた文書分類(自然言語処理)
- 多文書間の共通性分析に基づく文書クラスタリング(情報検索)
- トピック特有因子分析法と文書分類への応用(情報の分類)