講演音声認識のための教師なし言語モデル適応と発話速度に適応したデコーディング(音声,聴覚)

概要

論文の詳細を見る
大語彙の話し言葉音声認識においては,言語表現の話者間での多様性及び発話速度の変動が大きな問題となる.本論文では「日本語話し言葉コーパス(CSJ)」を用いて,これらの問題への対処について述べる.話し言葉における言語表現と発音の話者間での差異に対応するために,言語モデルの話者性への適応を行う.適応手法として(1)パープレキシティやTF-IDF尺度を用いて選択した類似テキストを用いる手法,及び(2)認識結果を直接用いる手法を検討し,実際の学会講演の音声認識実験で,各提案手法及びそれらの統合の有効性を確認した.次に,発話速度の変動に対処を行うデコーディング手法を提案する.本手法は,発話速度に応じて最適な音響分析フレーム・音素モデル・デコーディングパラメータを選択的に適用するものである.実際に,発話速度に応じて,認識誤り傾向に明確な差があること,及びモデル・パラメータを選択的に適用することの有効性を確認した.これらの手法を統合することにより,平均22.0%の単語誤り率を達成した.
社団法人電子情報通信学会の論文
2004-08-01