話者混合逐次状態分割法による不特定話者音声認識と話者適応

スポンサーリンク

概要

論文の詳細を見る
本研究では比較的少量の学習データによって不特定話者音素モデルを生成するための原理として,話者混合法を提案する.またこの原理に基づいて1秒以下の非常に短い発話で動作する話者適応方式として話者重み学習法を提案する.更にこの話者適応法において,認識率の低下なしに計算量の削減をする方法として話者プルーニング法を提案する.以上の原理を逐次状態分割法で生成された音素コンテキスト依存モデルと組み合わせることにより連続音声認識を行う.文節認識実験の結果,従来法の不特定話者HMM-LR法と比較して76.1%から82.6%と6.5%の認識率の向上を得た(27.2%の誤りの減少).また話者重み学習による話者適応では0.6秒の単語発声で75.8%から79.9%と4.1%の認識率の向上を得た(16.9%の誤りの減少).更に話者プルーニング手法を用いることにより,認識率の低下なしに混合連続出力分布の混合数を50〜92%削減することができた.
社団法人電子情報通信学会の論文
1994-02-25

著者

関連論文

もっと見る

スポンサーリンク