周波数特性の変動に頑健な実時間分散音声認識手法(第5回音声言語シンポジウム : 耐雑音)

概要

論文の詳細を見る
携帯電話やPDAなどの携帯端末の音声認識手法として分散音声認識手法(DSR: Distributed Speech Recognition)が近年提案された。DSRでは、携帯端末とサーバ間で伝送するデータ形式等を共通化する必要があり、現在、ETSIにおいて標準化が進められている。標準化の一環として、2000年4月にはETSI標準DSRフロントエンド、.2002年10月には雑音対策手法などを追加したETSI Advanced DSRフロントエンドが勧告された。携帯端末は多種多様であり、使用される入力デバイスの周波数特性には差異が生じる。この差異は特徴パラメータ圧縮時のベクトル量子化歪みを増加させ、音声認識性能劣化の要因の一つとなる。そこで、本稿では、周波数特性を正規化する手法を提案する。提案手法は、各フレーム毎に複数の参照ケプストラムと特徴パラメータを比較し、参照ケプストラムに入力ケプストラムが近付くように周波数特性を正規化する。実際には、入力発声の音素列を推定し、各音素の特徴パラメータの平均が音響モデル学習時の特徴パラメータの平均と一致するように入力特徴パラメータを平行移動させ、周波数特性を正規化する。音声認識実験結果より、提案手法はETSI Advanced DSRフロントエンドで使用されているBlind Equalization手法より高い認識性能を示した。特に、提案手法はMIRSフィルタ条件下でETSI Advanced DSRフロントエンドの単語誤り率を17.88%削減(16.67%→13.69%)することが可能であった。
社団法人電子情報通信学会の論文
2003-12-11

周波数特性の変動に頑健な実時間分散音声認識手法(第5回音声言語シンポジウム : 耐雑音)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク