最ゆう単語列逐次比較による音声認識結果の早期確定

概要

論文の詳細を見る
連続音声認識において発話終了時に確定される最ゆう単語列は, 発話全体に対する最適な認識結果となっている.しかし, アプリケーションによっては発話から認識結果確定までの遅れ時間が実用上問題となることがあり, 発話中に認識結果を早期確定することが必要となる.探索アルゴリズムが1パスの場合には, 探索中に過去の単独経路を検出して認識結果を早期確定することが可能だが, マルチパスの場合に有効な早期確定手法は提案されていない.そこで本論文では, 発話中の最ゆう単語列を過去の最ゆう単語列と逐次比較することによって認識結果を早期確定する手法を提案し, これを1パスデコーダと2パスデコーダへ適用する.提案手法では, 最ゆう単語列を得る間隔と単語確定マージンを制御することにより, 認識率の劣化を抑えつつ単語確定までの遅れ時間の短縮を図る.放送ニュースの音声認識実験において, 提案手法は単語正解精度を有意に劣化させることなく, 1パスデコーダにおいて従来の単独経路検出法と同等の単語確定平均遅れ時間を示し, 2パスデコーダにおいても約0.5秒の単語確定平均遅れ時間で認識結果を早期確定することができた.
社団法人電子情報通信学会の論文
2001-09-01