階層的Eigen Voice法による話者適応化(音声,聴覚)

概要

論文の詳細を見る
音声認識において新話者の少量発声を用いて良好な話者適応化が可能な方式として, EigenVoice(EV)法が知られている.しかしEV法では,適応化するパラメータ数が事前に固定されており,適応化用の発声が増えた場合にそれに応じた認識性能の改善が難しいという課題がある.そこで本論文では,EV法にモデル複雑度制御を導入した階層的EigenVoice (Hierarchical Eigen Voice, HEV)法を提案する.提案法では,適応化用発声の量に応じて適切な複雑度を自動的に選択できるため,少量発声で有効なだけでなく,発声量が増えるに応じて更に認識性能を改善できることが期待される.またEV法をトライフォンなどの環境依存音素HMMに適用するためには,巨大な共分散行列の固有ベクトルを求める必要があったが,提案法では共分散行列を小さく抑えることができるので実装が極めて容易になるという利点がある.更にEV法やHEV法の少量発声における適応性能を改善するために,事前確率分布を用いたMAPED (Maximum A Posterior Eigen Decomposition)推定法も提案する.日本語大語彙適続音声認識タスクを用いて,他の話者適応化方式(MLLR法,自律的モデル複雑度制御法など)と比較評価実験を行った.提案方式は新話者の5文発声で,他方式の50文発声と同程度の認識性能を得た.また適応化用発声の量が増えると,それに応じて認識性能が改善され,提案方式の有効性が確認された.
社団法人電子情報通信学会の論文
2003-10-01

階層的Eigen Voice法による話者適応化(音声,聴覚)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク