講演音声認識における発話速度の変動を考慮した音声認識手法

スポンサーリンク

概要

論文の詳細を見る
講演音声を対象とした音声認識を行う場合, 発話速度の速い発声の認識率が劣化するという問題が生じる.この原因としては, 発声のなまけなどの周波数領域における音響的特徴の変形が考えられるが, 同時に時間領域における変形も生じていると考えられ, 発話速度の正規化や補正が重要となる.本稿では, 尤度基準により発話速度に応じた分析周期・分析窓長を自動選択することで, 発話速度を補正する手法を提案する.本手法は分析周期・窓長を変更することで, 発話速度の補正の効果を得るものであるが, 最適な分析周期・窓長は発話毎に異なると考えられる.そこで, 複数の分析周期・窓長により認識した後, 分析周期により正規化した音響尤度と言語尤度を用いて最も尤度が高くなる分析周期・窓長を選択する.「話し言葉工学」プロジェクトより配布されているモニターセットを用いた評価実験において, 提案手法の有効性を確認した.
社団法人電子情報通信学会の論文
2001-12-14

著者

関連論文

もっと見る

スポンサーリンク