斜交LSI法による文書クラスタリング(データマイニング)
スポンサーリンク
概要
- 論文の詳細を見る
文書クラスタリングでは,各文書を正しいクラスタに配置するばかりではなく,正しい数のクラスタを求めることも要求される.本論文では,クラスタベクトル候補抽出,クラスタベクトル選択の2段階の処理からなり,クラスタ数を仮定せずに存在する各クラスタに対してクラスタベクトルを求めることのできる新しい文書クラスタリング法,斜交LSI法を提案する.提案手法のポイントは,クラスタベクトル候補抽出において,LSIにおける左特異ベクトルを一つだけ求める処理を,直前に求められた左特異ベクトルとの類似度に比例させて文書ベクトルの長さを短縮しながら逐次的に繰り返し,左特異ベクトルを一つのクラスタに近づけていく点にある.TDT2の38イベントを用いた評価実験では36個のクラスタが検出され,一つのイベントが分割したものの35個がクラスタとして抽出されていた.また,クラスタリングの精度は94.34%であり,ベクトル空間モデルによる文書分類の精度にほぼ匹敵することが確認された.
- 2009-09-01
著者
関連論文
- 斜交LSI法による文書クラスタリング(データマイニング)
- 部分空間における特有因子分析を用いた文書分類(自然言語処理)
- 多文書間の共通性分析に基づく文書クラスタリング(情報検索)
- トピック特有因子分析法と文書分類への応用(情報の分類)