講演音声の音響的特徴分析と音響モデル構築方法の検討

概要

論文の詳細を見る
自由発話の一つである講演音声の発話様式に頑健な音響モデルの構築方法について報告する.本稿ではまず, 同一話者の講演音声, 読み上げ音声を比較し, 発話様式の違いによる音響的特徴の違いが顕著であることを明らかにする.また周波数的特徴だけでなく, 発話速度の違いも認識率に大きく影響していることを示す.そこで発話速度の変動への対処として, (1)音響モデルにおける発話速度の変動のモデル化, (2)発話速度にあわせた分析窓長, フレーム周期の最適化を提案する.(1)は異なる継続時間長の音素セグメントで複数の音響モデルを構築し, 同一の音素環境に割り当てることで一つの音素モデルに統合するものである.これにより, 継続時間長の短い音素の出現位置を事前に知ることなく, 音素継続時間長の変動を吸収することができる.また, (2)は分析窓長, フレーム周期の最適化により音響モデル学習データとの間の音素継続時間長分布のずれを修正するとともに, 周期数分析における分析精度を改善するものである.これらの手法を併用することで, 単語誤り率を22.2%改善することができ, さらに教師なし適応との相乗効果も確認できた.
2001-07-13