発話速度に依存したデコーディングと音響モデルの適応、

元データ 2001-12-14 社団法人電子情報通信学会

概要

大語彙の話し言葉音声認識における発話速度に関する問題に焦点をあてた認識手法について報告する。話し言葉音声では発話速度は一般に速く変動も大きいため、認識が困難である。実際に認識結果において、特に速い音声で認識率が低いこと、及び発話速度の速い音声と遅い音声では認識誤り傾向に明確な差があることを確認した。そこで、発話速度に応じて最適な音響分析フレーム・音素モデル・デコーディングパラメータを選択的に適用し認識を行う手法を提案する。発話速度の自動推定を組み合わせることにより認識率の向上を得た。さらに、発話速度情報を話者適応に用いる手法についても検討を行う。速い発話と遅い発話のそれぞれを指向した異なる話者適応モデルを構築しそれらを選択的に適用することで、速度情報を用いない適応よりも効率的な適応が行えることを確認した。

著者

南條 浩輝 龍谷大学
河原 達也 京都大学大学院 情報学研究科
南條 浩輝 京都大学大学院情報学研究科知能情報学専攻

関連論文

▼もっと見る