大規模分布類似度計算のためのベイズ手法を用いた新しい類似尺度

スポンサーリンク

概要

論文の詳細を見る
これまで提案されている語の意味的類似度尺度は,文脈プロファイルを限られた量のデータから点推定で求めて利用していることから,データスパースネスに対して頑健ではない.本論文は,ベイズ推定の手法を用いた頑健な意味的類似度計算方法を提案する.提案手法は,ベイズ推定により得られた文脈プロファイルの分布の下で元となる類似度の期待値をとることにより類似度を計算する.文脈プロファイルが多項分布で表現され,ベイズ推定における事前分布がDirichlet分布であり,元となる類似度がBhattacharyya係数である場合,この方法は解析解を持ち,効率的に計算できる.日本語の大規模語彙に対する類似度計算において,提案手法が既存のよく知られた意味的類似度尺度よりも優れていることを実験で示す.
2011-12-15

著者

関連論文

もっと見る

スポンサーリンク