スパース性に基づくブラインド音源分離を用いたステレオ入力音声認識(音声,聴覚)

概要

論文の詳細を見る
本研究では,スパース性に基づくブラインド音源分離を用いた雑音残響下のステレオ入力音声認識手法を提案する.ステレオ入力を前提とした場合,スパース性に基づくブラインド音源分離は,雑音環境下における音声認識のフロントエンドとして有効なアプローチの一つであるが,残響環境下では分離性能が劣化するほか,時間周波数マスキングそのものが,目的とする音声のスペクトルにひずみを引き起こし,認識性能を劣化させてしまう可能性がある.本研究ではまず前者の問題に対し,我々が開発してきた,拡散雑音モデルに基づく最ゆう時間周波数マスキング法を適用し,その有効性を検証する.次に,時間周波数マスキングそのものによって生じるひずみの音声認識への影響を検討し,(1)連続値マスクの方がバイナリーマスクよりも影響が少ないこと,(2)CMN(Cepstral Mean Nomalization)によりひずみの影響が大きく改善され,特に連続値マスクの方が改善量が大きいことを,実験的に明らかにする.最後に提案手法の有効性を,雑音残響環境下での連続数字音声認識タスクにより評価し,従来手法に比べて高い認識性能が得られることを示す.
2010-03-01