音声認識のための特徴パラメータ正準化法の検討(認識・理解・対話)
スポンサーリンク
概要
- 論文の詳細を見る
確率的分類器(HMM)に基づく認識システムは,性別,話速,音響環境等に起因するHMMの隠れ変数のバイアスにより性能が低下する.隠れ変数の影響を特徴抽出の段階で吸収することができれば,より頑健な認識システムを構成できると考えられる.その第一段階として,本報告では,男女の声質を対象とした特徴パラメータ正準化方式について述べる。正準化は音響特徴空間と音響モデルの間に,中間表現である音素弁別特徴(DPF)空間を導入することにより実現する.正準化器は,三つのDPF抽出器と一つのDPF選択器から成る.まずDPF抽出部では,多層ニューラルネツトワーク(MLN)に基づくDPF抽出器から,話者の声質に対応する三つのDPFベクトルを抽出する.次に,DPF選択部では三種類のDPFベクトルのうち,音響モデルに最も適合するDPFベクトルを正準化DPFベクトルとして抽出する.評価実験では,単一のHMM分類器に正準化DPFベクトルを入力する方式と,隠れ変数に対応させた複数のHMM分類器に従来の音響特徴パラメータ(MFCC)を入力する方式とを比較する.提案方式は,少ない演算量にもかかわらず良好な性能が得られることを示す.
- 2004-05-20
著者
関連論文
- 音声認識応用に関する学会試行標準
- 幼児エージェントにおけるバイアスの形成と言語の構造化
- スライド共有による質疑応答機能を組み込んだ講義システムの開発(e-Learningコンテンツ/一般)
- ウェブブラウザ上で動作可能なマルチモーダル対話システム(プラットフォーム)
- 音声対話技術コンソーシアム(ISTC)の活動成果報告(SIG-SLP内組織の活動報告)
- 2ZJ-6 動画視聴時の注目点を考慮した動画推薦方法の提案(人間行動,障害等支援,学生セッション,コンピュータと人間社会)
- 3ZA-7 デフォルメ地図の地上座標系へのマッピングを利用した現地情報提供システム(ITSネットワーク・地図情報,学生セッション,ネットワーク)
- DS-2-5 共有信念に基づく発話場面の推定(DS-2. 共生コンピューティング,シンポジウムセッション)
- DS-1-11 Cellプロセッサを用いた音声検索エンジンの高速化(DS-1. COMP-NHC学生シンポジウム,シンポジウムセッション)
- 生徒の検索情報を利用した講義の重要語抽出