N-best線形辞書探索と1-best近似木構造辞書探索の併用による大語彙連続音声認識(音声,聴覚)

概要

論文の詳細を見る
HMMに基づく大語彙連続音声認識システムでは,語彙数の増加に伴い認識時間が増加する.そこでサブワード単位でプレフィクスを単語間で共有した木構造化辞書を用いることで状態数を削減する.また認識過程において音声の各時刻における部分文仮説に接続し得る単語を次々とつないでいくと仮説数が急速に増大するため,一般には単語境界やゆう度の単語履歴依存性に対して近似手法を用いる.まず,木構造辞書とバイグラムを用いた認識手法における単語履歴依存性の近似手法,及び線形辞書を用いた認識手法について比較検討を行った.1-best近似木構造辞書探索は効率が良いが探索過程で最適な解が失われる可能性が高く,線形辞書探索は最適な解は求められるが効率が悪い.これらを踏まえ,木構造辞書を用いた1-best近似探索と,一部の単語を動的に線形に展開して探索する方法とを併用する手法を提案する.この手法を読上げ音声,ニュース音声及び講演音声において実験的に評価した結果,全2万単語のうち250から500単語を線形辞書に展開することによって,単語正解率及び正解精度の向上を得ることができた.
社団法人電子情報通信学会の論文
2004-03-01