効率的なサンプリング手法を用いた話者モデリング

概要

論文の詳細を見る
多重スケール混合分布 (Multi-scale mixture model) を推定するための効率的なサンプリング手法を提案する.多重スケール混合分布は,混合分布を要素分布として持つ混合モデルで,本稿では,要素分布として混合ガウス分布 (Gaussian mixture model: GMM) を導入したモデルを扱う.複数の話者が発話した音声データの集合に対して本モデルを適用した場合,発話のような数十フレーム程度の比較的短いスケールで観測される話者内変動は,各要素 GMM により表現される.一方で,異なる話者の発話間に含まれ,比較的長いスケールで観測される話者間変動は,多重スケール混合分布全体により表現される.このような階層構造を持つ複雑な分布のモデル構造推定問題では,マルコフ連鎖モンテカルロ (Markov chain Monte Carlo: MCMC) 法のような確率論的アプローチに基づくモデル推定の枠組みが有効である.しかし,ギブスサンプリングのような単純な MCMC 法をそのまま適用した場合,本来は階層構造を持つべき長時間スケールの構造と短時間スケールの構造が,どちらも対等にサンプリングされるため,繰り返しを含むモデル推定の過程で,容易に局所解に陥ってしまう.そこで,本研究では,blocked ギブスサンプリングに類する手法を導入することで,モデルの階層構造を考慮できるサンプリング手法を提案する.このとき,Iterative conditional modes (ICM) アルゴリズムを導入し,一部のサンプリングプロセスを決定論的な枠組みに置き換えることにより,全ての分布がひとつの分布に縮退してしまう病的な解が選ばれる現象を回避できることを示す.非定常なノイズを重畳した評価セットに対する話者クラスタリング実験により,提案するサンプリング法に基づく構造推定手法が,従来のサンプリング手法や変分ベイズ法に基づく構造推定手法よりも,高い精度でクラスタリング出来ることを示した.
2013-07-18

著者

渡部晋治
日本電信電話株式会社NTTコミュニケーション科学基礎研究所

効率的なサンプリング手法を用いた話者モデリング

スポンサーリンク

概要

著者

関連論文

スポンサーリンク