ベイズ的音声認識VBECを用いたモデル構造自動構築法の多様な音声データに対する頑健性(ポスターセッション)

概要

論文の詳細を見る
現在の音声認識システムが自然発話の認識・理解において十分な性能を示すことができない理由に頑健性の欠落が挙げられる.頑健性の欠落の一因としては,統計的モデル学習における,パラメータ推定に基づく最尤法の汎化能力の低さが考えられる.既存の隠れマルコフモデルのみならずそれを超える音響モデリング技術においても,統計的モデル学習は引き続き根幹技術の一つであると考えられ,その汎化能力を高めることは音声認識における普遍的課題といえる.事後確率分布推定にもとづくベイズ法は,モデルパラメータの周辺化操作による高い汎化能力ゆえに,最尤法に比べて頑健なモデル学習を可能にする.ベイズ的音声認識VBECは,変分ベイズ法を用いた事後確率分布推定にもとづくため,ベイズ法の長所である汎化能力の高い頑健な推定を実現する本格的なべイズ音声認識の枠組みである.また,VBECはモデル構造を確率変数とみなすことにより,モデル構造事後確率分布の事後確率最大化をもとにして,人手無しで音響モデルの自動構築を高い精度で実現できる.本稿では発話スタイル・使用言語の異なる学習・評価セット(孤立単語音声・読み上げ音声・講演音声・英語読み上げ音声)を用い,データによらずVBECの音響モデル自動構築が有効であることを示す.また,VBECで自動構築された音響モデルが評価データによらず十分な性革を示すことを先のJNASで作られた音響モデルを質問応答音声で認識することにより検証する.
社団法人電子情報通信学会の論文
2004-12-13

ベイズ的音声認識VBECを用いたモデル構造自動構築法の多様な音声データに対する頑健性(ポスターセッション)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク