発話速度と言語的特徴による変動を考慮した音素持続時間モデルを用いた音声認識(音声言語)

概要

論文の詳細を見る
本論文では,音声認識により生じる認識誤りのうち,持続時間が本来の長さと極端に異なるものを抑制する手段として,音素持続時間のモデルを用いる方法の検討を行った.そして,発話速度や言語的要因によってもたらされる持続時間の変動を考慮した,音素持続時間モデル化法と,その音声認識への適用手法の提案を行う.従来,音声合成の分野を中心として様々な音素持続時間の生成法が提案されているが,音声認識を目的として,発話速度の影響と音素の文中での位置や品詞などの言語的特徴の影響の双方を考慮に入れた音素持続時間のモデル化法や認識手法はなかった.本論文では,言語的特徴などを質問として用いた決定木により求められるクラスを単位とし,音素の持続時間と発話速度と相関の高い局所平均母音長の2次元正規分布として持続時間のモデル化を行うことで,様々な要因により変化する音素持続時間を高精度に推定を行う方法を提案する.また得られた持続時間の分布を,音声認識結果のN-bestのリスコアリングに利用することで,認識率の改善が得られることを述べる.
2006-12-15