全音素エルゴディック HMM を用いた教師なし話者適応

概要

論文の詳細を見る
本論文では,音素を単位とする連続音声認識のための音素モデルの教師なし話者適応の性能向上を目的として,統計的な言語情報を用いる方法を提案し,その評価を行う.本方式では音響モデルと言語モデルとを融合した一つの確率モデルである「全音素エルゴディックHMM」を用いる.この確率モデルは,標準話者のすべての音素HMMをエルゴディックに連結し,音素HMM間の遷移確率の初期値にテキストデータより得られた音素bigram確率値を用いて作成する.適応学習には最ゆう推定法を用い,更に推定誤差を補うために移動ベクトル場平滑化^<(8)>を用いる.標準話者1名,入力話者1名を用いた音素認識実験において,適応学習に200単語を用いた場合,約2,100単語から切り出した23音素の音素認識率で不特定話者モデルの性能を上回った(本方式:87.8%,不特定話者:85.1%).また,適応に256文節を用いた279文節認識実験において74.6%(不特定話者69.5%)を得て,本方式の有効性が認められた.更に初期モデルの検討を行い,音響モデルの初期モデルとして不特定話者モデルを用いることが有効であることが確認された.
社団法人電子情報通信学会の論文
1994-02-25