カテゴリ階層構造を考慮した確率的トピックモデルとその応用

概要

論文の詳細を見る
高度な社会の情報化に伴い,世に生み出される情報の量は,日々加速度的に増加している.これらの大量の情報から有用な知見の抽出や,新たな知識の発見を得ることを目的とした技術が提案されてきた.なかでも,情報化社会における情報の中心を占めるテキスト形式のデータを取り扱う手法として,近年,確率的トピックモデルの有用性が注目されている.その代表的なものとして LDA (Latent Dirichlet Allocation) がよく機能することが知られている.ところで,情報の継続的な増加に伴い,大規模な情報にアクセスする有効な手段の一つとして,文書に階層カテゴリ情報を自動的に付与することによる,文書集合のインデックス化と階層化が望まれている.LDA ではカテゴリ情報を明示的にモデル化しないため,新たなモデルが求められる.そこで,本論文では,カテゴリ階層構造を持つ文書集合に適したトピックモデルとして DirTM (Directory Topic Model) を提案する.モデルパラメータをギブス・サンプリングで推定し,いくつかの実験を通して提案モデルの有効性を示す.
2011-01-21