音声認識におけるモデル間スケーリング係数の自動推定(音声,聴覚)

概要

論文の詳細を見る
音声認識における確率モデル間のスケーリング係数を効率的に推定する枠組みを提案する.音声認識システムは音響モデル,言語モデルなどの複数のモデルで構成される.モデルごとの出力値の乗算を行う際に,出力確率値の各々を異なる指数(スケーリング係数)でべき乗した上で行うと性能が向上することが経験的に知られている.従来,このスケーリング係数は,その値を変化させて対象の音声データを認識する処理を繰り返し,認識率が高くなる点を選択するという,アドホックな方法で最適化されてきた.本論文では,このスケーリング係数を,対数線形モデルの重みパラメータとみなし,最小単語誤り基準を用いて推定する方法を提案する.提案手法では計算量を低減するために単語ラティスを導入するが,それにより生じる推定値の初期値への依存性を軽減するために,単語ラティス生成とこう配法を用いた係数推定とを交互に繰り返し行う.日本語話し言葉コーパスを用いて評価を行い,提案手法が,最も単語正解精度が高くなるスケーリング係数を初期値に依存せず推定することを確認した.
2012-05-01