発話位置依存ケプストラム平均正規化による遠隔発話の音声認識(認識・理解・対話)

概要

論文の詳細を見る
遠隔環境において,伝送歪みは音声認識の性能を大きく劣化させる。本稿では発話位置依存ケプストラム平均正規化(Cepstral Men Normalization : CMN)による頑健な音声認識方法を提案する。まず,部屋をいくつかの区域に分割し,その中心位置からマイクロホンまでの伝達特性を各位置で再生されたスピーカーの音声を用いて事前に計測しておく。音声認識時には,システムはマイクロホンペア間の音声の到着時間差(Time Delay of Arrival:TDOA)に基づいて三次元の話者位置を推定する。本システムは,四つのマイクロホンをT字型に配置し,相互相関法を用いてマイクロホンペアの間の到着時間差を求める。そして,推定した発話位置によって事前に計測した伝達特性を選択し. CMNによって伝送歪みを補正して遠隔発話を認識する。さらに、提案手法では,人間からの発話のケプストラム平均とスピーカーからの発話のケプストラム平均のミスマヅチも補正することにより実際の発話に対応する。実験により提案手法は,遠隔環境下で音声認識システムの性能を有効に改善することを示した。
一般社団法人情報処理学会の論文
2004-05-27