大語彙連続音声認識と音節<i>N</i>-best音声認識を用いたSpoken Term Detectionの高精度化

概要

論文の詳細を見る
企業のコールセンターでは,音声通話に含まれる特定のキーワードをチェックするコールモニタリング業務によりコールセンターの品質向上を図っている.一部のコールセンターでは,大語彙連続音声認識技術の利用により日々大量に蓄積される音声データに対するキーワード検索が可能となってきた.ここでは,検索キーワードや業務内容に応じて,再現率を重視したい,適合率を重視したいといった要望がある.本報告では,認識単位の異なる二種類の音声認識システムを用いることで,単にキーワード検出区間を出力するだけではなく各検出区間に対して信頼度のスコアを与え,検索時に再現率・適合率のバランスを調整できるシステムを提案する.提案法では,大語彙連続音声認識を用いて検索キーワード文字列に一致する区間をキーワード検出区間候補として抽出し,それら検出区間に含まれる音節音声認識の N-best 出力と検索キーワード音節列とを比較することで,各検出区間をスコアリングする.実験では認識尤度によるスコアリングを用いた結果との比較を行い,本手法の有効性を示した.
2014-07-17