VQコードのBigramで制約した音韻HMMによる音声認識

概要

論文の詳細を見る
本論文では,VQコードの局所的な遷移を制約することにより,不特定話者用音韻HMMの音韻特徴量分布を,入力話者に適した範囲に制約するBigram制約HMMを提案する.本モデルにより,異なる音韻間の特徴量分布の重なりが減少し,認識性能を向上することができる.Bigram制約HMMは,VQコードのBigramと不特定話者用HMMを合成することにより生成され,出力シンボル確率は,前時刻のVQコードの条件付き確率で表現される.従って,出力シンボル確率分布は,HMMの同じ状態内であっても前時刻のVQコードの種類によって動的に変化する.本モデルはBigramを作成する音声データによって2種類考えられる.一つは,Bigramを入力話者の音声から求められる入力話者用Bigram制約HMMで,もう一つは,Bigramを多数話者の音声から求める不特定話者用Bigram制約HMMである.学習話者16名,評価話者4名が発声した5,240単語を用いて18子音の不特定話者音韻認識実験を行った.その結果,従来の不特定話者用HMMでは,平均音韻認識率が70.8%であったが,入力話者用Bigram制約HMMにより78.6%に,不特定話者用Bigram制約HMMにより76.3%に改善することができた.
社団法人電子情報通信学会の論文
1993-07-25