O-gram汎用 LVCSRと音素弁別特徴ベクトルを利用した対話音声認識の検討

スポンサーリンク

概要

論文の詳細を見る
本報告では汎用LVCSRソフトウェアを利用して,対話音声を高精度で認識する方法を提案する.提案方式は,LVCSRが出力する音素系列を弁別的な特徴ベクトル系列に変換した後,対話管理部が指示する対話記述(語彙と文法)を利用してキーワードをスポッティングする.本方式の特徴は以下の二点にある.(1)LVCSRの言語制約を緩めることにより(0-gram, 挿入ペナルティ有),LVCSRの持つ高い音素識別能力を最大限に利用している.(2)音素系列出力を弁別的な特徴ベクトル系列に置き換え,キーワードスポッティングを行うことにより,置換・脱落・付加誤りに対処している.本文では,道案内タスクの対話音声データを用いて,言語モデルにおける言語制約の違い,サブワードモデルとの比較,および混同行列を用いた整合方式との比較を行い,提案方式の有効性を示す.
社団法人電子情報通信学会の論文
2002-12-13

著者

関連論文

もっと見る

スポンサーリンク