音響モデル変換による残響環境中の音声認識

概要

論文の詳細を見る
本稿では、残響に頑健な音声認識を実現するため、クリーン音声のモデルと残響特性を与えて、残響環境に適応させた音響モデルを作成する手法について議論する。実環境では、音源からの直接音に加えて壁からの反射などによる残響成分が重畳した音声信号が観測される。残響時間がフレーム長に対して長い場合、観測信号には観測フレーム以前の信号が伝達歪みを受けて残響成分として重畳される。このため、残響による歪みは観測フレーム以前のフレームの音声に依存している。そこで、本手法では変換する音素に対してその直前にある音素列の可能性を場合分けし、それぞれの場合で残響モデルを求める。そして残響モデルを音素列の出現確率によって重ね合わせて、変換結果とする。残響モデルの求め方としては、各フレームの残響成分を独立した分布とみなしてモデル合成をする方法と、HMMからMFCCの出力系列を構成し、直接計算した残響を残響分布の平均とする2通りの方法を提案する。実験評価のため、残響環境下の音声の特定話者孤立単語音声認識実験を行い、認識率の向上を確認した。
社団法人電子情報通信学会の論文
2005-01-21