2000-SLP-31-11 種々のタスクにおける大語彙連続音声認識システムの性能評価と診断

概要

論文の詳細を見る
大規模な統計的モデルに基づく大語彙連続音声確認における認識誤りの原因を自動的に同定・診断する手法を, 読上げ音声, 講演音声, 対話音声の三つの異なる認識システムに適用し, 現状の音声認識システムの評価を行う.この手法は, 正解文と認識結果のスコアを比較し, 区間と要因ごとに分解するものであり, 誤り単語を含む区間ごとに対して, 原因モジュールを音響モデル・言語モデル・デコーダのいずれかに同定し, その傾向を分析する。読上げ音声認識システムにおいては, サーチエラーを自動同定・分析することにより, 実際に効率的にデコーダの改善を行うことができた.講演や対話のような話し言葉の音声認識では, 間投詞やショートポーズに関する言語モデルや, 典型的なつなぎ語や文末表現における音素コンテクストのモデルに問題があることが明らかになった.また, 同一の発声スタイルのデータで音響モデル・言語モデルを構築することの重要性・有効性が確認された.
一般社団法人情報処理学会の論文
2000-06-02