ニュース音声認識のための言語モデルと音響モデルの検討

概要

論文の詳細を見る
本稿では, 放送ニュース音声認識における言語モデルおよび音響モデルについて検討した結果について報告する.我々はこれまで, 単語(形態素)n-gram言語モデルと環境依存音素HMMを用いた大語彙連続音声認識システムによる放送ニュース音声の認識について検討を進めてきた.これまでの言語モデルでは, 単語の読みが異なっていても表記や品詞が同じであれば同じエントリとして扱ってきたが, 今回, 表記が同じであっても読みの異なる単語は異なるエントリとして扱う読み依存言語モデルを構築した.放送ニュースでは, 同じ話者が数文続けて発声することが多いため, 入力音声の話者を識別しながら音響モデルを適応していくオンライン即時・逐次型話者適応について検討した.読み依存言語モデルを用いることにより単語誤り率が約10%改善され, オンライン話者適応を行うことにより単語誤り率が約15%改善されることが確認された.さらに, 従来の音声認識で用いられている音響パラメータ系列に対して単語系列の事後確率を最大化する規準に対して, 音響パラメータ系列に対して発声内容の事後確率を最大化する意図駆動音声認識を提案し, N-best候補の再評価に適用することでその効果を確認した.
一般社団法人情報処理学会の論文
1998-12-10

ニュース音声認識のための言語モデルと音響モデルの検討

スポンサーリンク

概要

著者

関連論文

スポンサーリンク