競合学習を用いた情報理論的クラスタリング文書クラスタリングにおける基準及びアルゴリズムの比較(テーマセッション,コンピュータビジョンとパターン認識のための機械学習及び企業ニーズセッション)

概要

論文の詳細を見る
情報理論的クラスタリング(ITC:information-theoretic clustering)は,特徴分布の類似性によりクラスタをまとめる方法である.近年,クラスタリング基準が明確化され,この基準の最適化によるITCアルゴリズムが提案された.このアルゴリズムは,k-means法においてデータが属するクラスタラベルを更新する時に評価関数としてKL(Kullback Leibler)ダイバージェンスを用いる.最近,この考え方に基づいた,新しいアルゴリズムが提案された.その手法は,ゼロ頻度問題を回避するため,KLダイバージェンスの代わりにその近似であるskewダイバージェンスを用い,学習アルゴリズムとしては,k-means法に対する優位性が確認されている競合学習を用いる.本稿は,前記手法がテキストデータを対象とした多クラス問題において,最大マージンクラスタリングや混合von Mises-Fisher分布に基づく方法などの既存アルゴリズムに比べて優れていることを実験により示した.
一般社団法人電子情報通信学会の論文
2012-08-26