音素弁別特徴を用いた頑健な対話音声認識 : モーラ単位サブワードモデルの検討(認識・理解・対話)

スポンサーリンク

概要

論文の詳細を見る
汎用LVCSRエンジンの言語制約を緩め0-gramとすることで,対話音声中のキーワードを高い精度で検出する方式を研究している.これまでに,音素弁別特徴(DPF)を利用したキーワードスポッティングを提案し,道案内タスク対話音声中のキーワード検出実験により,置換・脱落・付加誤りの少ない方式であることを報告した.今回は,(a)DPFが混同行列(CM)に比較して音響環境の変化に頑健であること,(b)LVCSRエンジンの登録辞書は,20k辞書中の3モーラまでの単語(同音異義語含む)で,20k辞書(0-gram)と同等の性能が得られることを実験結果から示す.同時に,3モーラまでの異なり語のみを用いた実験結果(低い性能に留まった)と(b)の比較から,(c)同音異義語の存在が頻度情報として認識時に有効に働いていることを指摘し,3モーラ単語の頻度情報を3モーラのサブワード言語モデル(1-gram)として採用することで,キーワード検出性能が大きく向上することを示す.
2003-05-22

著者

関連論文

もっと見る

スポンサーリンク