音声理解を指向したベイズリスク最小化枠組みに基づく音声認識(音声,聴覚)

概要

論文の詳細を見る
話し言葉の音声理解を指向した音声認識手法を提案する.音声理解の観点からは,従来の音声認識の評価尺度,すなわち,すべての語句の誤りを同等に扱って計数する尺度は適切でない.これは,発話中にはその認識誤りが音声理解に及ぼす影響が大きい重要な語句と,そうでない語句が含まれるためである.このような背景に基づき,本論文では,はじめに音声理解を困難にする単語の認識誤りを重要視する評価尺度である「重み付き単語誤り率(WWER: Weighted Word Error Rate)」の提案を行う.その上で,重み付き単語誤り率の最小化を行う音声認識をベイズリスク最小化(MBR: Minimum Bayes-Risk)の枠組みに基づいて定式化する.CSJの学会講演からの重要文抽出及び自然言語で書かれたマニュアルの音声検索システムに提案手法を適用したところ,音声認識の精度(重み付き単語誤り率)の改善が得られ,それに伴い,音声認識の誤りによって生じた音声理解の精度低下のうちの約14%から17%を改善できた.
2008-05-01