カテゴリ階層構造を考慮した確率的トピックモデルとその応用
スポンサーリンク
概要
- 論文の詳細を見る
高度な社会の情報化に伴い,世に生み出される情報の量は,日々加速度的に増加している.これらの大量の情報から有用な知見の抽出や,新たな知識の発見を得ることを目的とした技術が提案されてきた.なかでも,情報化社会における情報の中心を占めるテキスト形式のデータを取り扱う手法として,近年,確率的トピックモデルの有用性が注目されている.その代表的なものとして LDA (Latent Dirichlet Allocation) がよく機能することが知られている.ところで,情報の継続的な増加に伴い,大規模な情報にアクセスする有効な手段の一つとして,文書に階層カテゴリ情報を自動的に付与することによる,文書集合のインデックス化と階層化が望まれている.LDA ではカテゴリ情報を明示的にモデル化しないため,新たなモデルが求められる.そこで,本論文では,カテゴリ階層構造を持つ文書集合に適したトピックモデルとして DirTM (Directory Topic Model) を提案する.モデルパラメータをギブス・サンプリングで推定し,いくつかの実験を通して提案モデルの有効性を示す.
- 2011-01-21
著者
関連論文
- 意見文検索のための言語モデルにおける局所文脈スムージング(自然言語処理,情報検索,情報爆発論文)
- 潜在トピックを用いたブログ空間からの情報伝搬ネットワーク抽出(情報検索 Web情報システム,データ工学論文)
- 情報検索のための確率的言語モデルに関する動向と課題(情報検索,データ工学論文)
- 知識ベースを用いた人名検索時の曖昧性の解消(言語処理,夏のデータベースワークショップDBWS 2006)
- 知識ベースを用いた人名検索時の曖昧性の解消(言語処理)
- 多重トピックを用いたブログ空間の情報伝搬解析(ブログ・情報検索)
- 高さの制限された無順序木の編集距離問題に対する近似アルゴリズム
- 多型トピックモデルを用いたアノテーション付き文書に対する検索手法(テキストマイニング,データ工学論文)
- 多重多型トピックモデルを用いたアノテーション付きテキストからのエンティティ検索(Wikipedia)
- 混合ディリクレ分布を用いた文書分類の精度について(情報融合)