行列変量正規分布の混合モデルとその声質変換への応用

概要

論文の詳細を見る
本稿では,行列を確率変量とする確率分布を利用した声質変換の枠組みを提案する.声質変換においては,1) 入力・出力話者双方の特徴量空間の精緻なモデル化,2) これらの特徴量空間の変換関係の適切なモデル化の二つを考慮する必要がある.ガウス混合モデル (Gaussian Mixture Model; GMM) に基づく声質変換は,その柔軟性から広く用いられている.通常,GMM に基づく手法では,入力および出力の特徴量を連結した結合ベクトル空間を最初に構築し,この結合ベクトル空間上において GMM によって結合確率密度関数を表現する事で,入力および出力特徴量の同時確率をモデル化する.このとき結合ベクトルに基づく手法では,主に「結合」特徴量空間の精緻なモデル化を行っていると考えられ,必ずしも入出力特徴量空間の関係性を適切にモデル化しているとは言えない.本稿における提案法では,入出力特徴量の同時確率を行列変量空間における GMM としてモデル化する事で,この問題に対処する.行列空間における行方向および列方向は,声質変換における 2 つのモデル化すべき機能を明示的に捉えており,提案法は入出力双方の特徴量空間の精緻なモデル化と両空間の関係性の適切なモデル化を同時に実現しうるものである.声質変換の実験の結果,提案法が変換性能を向上させる事を示す.
2014-07-17

行列変量正規分布の混合モデルとその声質変換への応用

スポンサーリンク

概要

著者

関連論文

スポンサーリンク