話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識

概要

論文の詳細を見る
本稿では、雑音下での音声認識における補助的特徴量として、話者正規化SSC(spectral subband centroids)を提案する。SSCは、サブバンド内に含まれる音声パワースペクトルのセントロイド周波数として定義される。この特徴量は、雑音環境下においても比較的変動の少ない、スペクトルのピーク(フォルマント)が示す周波数をおおまかにとらえるため、雑音に対してロバストな特徴量であると考えられる。SSCはスペクトルのピークが示す周波数に依存する特徴量のため、スペクトル形状の異なる複数話者から求めたSSCの分布は広がり、異なる音素の分布間に大きな重なりが生じると考えられる。そこで、この分布の重なりを低減するため、話者正規化手法をSSCの計算に取り入れた話者正規化SSCを提案する。自由発話音声を用いた連続音声認識実験により、話者正規化SSCを補助的特徴量として用いた場合、20.3%(SNR=15dB)の誤り改善率を得ることができた。また、話者正規化手法を用いないSSCとの比較においても、14.3%(SNR=15dB)の誤り改善率を得ることができた。
社団法人電子情報通信学会の論文
1998-12-10