雑音・残響指標NRSR-PD_nに基づく雑音・残響下音声認識の予測性能評価(スピーチエンハンスメント,電気音響,信号処理,音声一般)

概要

論文の詳細を見る
実環境において音声認識システムを利用すると,雑音や残響などの外乱の影響を受けて音声認識性能が著しく劣化する.ここで外乱による性能劣化を事前に予測できれば,その結果に基づいて性能改善手法を前処理等に反映できる.これまでに雑音下ではPerceputual Evaluation of Speech Quality(PESQ)を,残響下では室内音響指標(D値)を用いて音声認識性能を予測する手法が提案されている.しかし,これらの手法には予測指標が表現できない外乱が混入すると音声認識性能の予測精度は著しく劣化する問題がある.そこで本研究では,PESQとD値を併用して雑音・残響下における頑健な音声認識性能の予測法を提案する.提案法では事前に計測した発話音声やインパルス応答を用いて算出したPESQ,D値,音声認識性能から雑音・残響指標Noisy and Reverberant Speech Recognition criteria with PESQ and D_n(NRSR-PD_n)を策定する.そしてNRSR-PD_nを用いて性能予測を行う発話位置におけるインパルス応答と発話音声から音声認識性能の予測を試みる.評価実験の結果,従来のPESQとD値を個別に用いて性能予測する手法よりもNRSR-PD_nは頑健に雑音・残響下音声認識性能を予測できることを確認した.
一般社団法人電子情報通信学会の論文
2013-05-09