O-gram汎用 LVCSRと音素弁別特徴ベクトルを利用した対話音声認識の検討
スポンサーリンク
概要
- 論文の詳細を見る
本報告では汎用LVCSRソフトウェアを利用して,対話音声を高精度で認識する方法を提案する.提案方式は,LVCSRが出力する音素系列を弁別的な特徴ベクトル系列に変換した後,対話管理部が指示する対話記述(語彙と文法)を利用してキーワードをスポッティングする.本方式の特徴は以下の二点にある.(1)LVCSRの言語制約を緩めることにより(0-gram, 挿入ペナルティ有),LVCSRの持つ高い音素識別能力を最大限に利用している.(2)音素系列出力を弁別的な特徴ベクトル系列に置き換え,キーワードスポッティングを行うことにより,置換・脱落・付加誤りに対処している.本文では,道案内タスクの対話音声データを用いて,言語モデルにおける言語制約の違い,サブワードモデルとの比較,および混同行列を用いた整合方式との比較を行い,提案方式の有効性を示す.
- 社団法人電子情報通信学会の論文
- 2002-12-13
著者
関連論文
- マルチモーダル情報処理の研究動向(マルチモーダル)
- 幼児エージェントにおけるバイアスの形成と言語の構造化
- Suffix Arrayを用いた音声文書の高速検索
- ウェブブラウザ上で動作可能なマルチモーダル対話システム(プラットフォーム)
- 音声対話技術コンソーシアム(ISTC)の活動成果報告(SIG-SLP内組織の活動報告)
- 2ZJ-6 動画視聴時の注目点を考慮した動画推薦方法の提案(人間行動,障害等支援,学生セッション,コンピュータと人間社会)
- 3ZA-7 デフォルメ地図の地上座標系へのマッピングを利用した現地情報提供システム(ITSネットワーク・地図情報,学生セッション,ネットワーク)
- DS-2-5 共有信念に基づく発話場面の推定(DS-2. 共生コンピューティング,シンポジウムセッション)
- DS-1-11 Cellプロセッサを用いた音声検索エンジンの高速化(DS-1. COMP-NHC学生シンポジウム,シンポジウムセッション)
- 音声対話システムと質問応答システムの連携による質問応答対話の実現と対話シナリオの検討