隠れマルコフ網と一般化LR構文解析を統合した連続音声認識

概要

論文の詳細を見る
本論文では,音素コンテキスト依存LRパーザにより,逐次状態分割法(Successive State Splitting:SSS)で自動生成された隠れマルコフ網(HMnet)を駆動するSSS-LR連続音声認識法の認識性能を評価する.話者適応方式は,ベクトル場平滑化手法(Vector Field Smoothing:VFS)を用いた.まず,語いが1035語のタスクで文節認識実験を行った結果,特定話者に対し第1位で93.2%,3名の話者に対し89.7%という高い認識率を達成し,FuzzyVQに基づく離散HMMや混合連続分布HMMと比較して,認識誤り率がほぼ半減した.次に語いを1649語および3702語に拡張した大語いタスクで評価した結果,男女各2名の計4名の話者に対し,それぞれ第1位の文節認識率で90.2%,87.2%という良好な結果を得た.また,ビーム幅を狭めて処理量を削減しても高い認識率が維持できることを確認した.以上のことから,SSS-LR連続音声認識法は高性能であるばかりでなく,高速化をも達成した方式である.
社団法人電子情報通信学会の論文
1994-01-25