調音運動ダイナミクスの音声認識への応用(聴覚・音声/一般)

概要

論文の詳細を見る
本研究では、我々は実測した調音データを用いて音声生成メカニズムを音声認識方法に導入することを試みた。まず、調音運動データに対して音声信号と同様にHMMにより音素認識の試験を行なった。調音データのみの場合得られた認識率がそれほど高くないが、調音データ(変位)を音声データに追加することによって音声データのみより高い認識率が得られた。これは調音データが音声データにない有用な情報をもっていることを示唆している。さらに、変位以外の調音運動ダイナミクスによる音声認識への寄与を明らかにするため、調音運動の速度・加速度を音響パラメータ(MFCC)のΔMFCC・ΔΔMFCCを対応して考察した。その結果、調音運動の速度はΔMFCCと同程度の寄与があり、調音運動の加速度成分は速度成分のように同程度に貢献していることがわかった。それに対して、音響パラメータの「加速度」成分は音声認識にほとんど貢献していない。調音運動(変位)データはハイブリドHMM/BNモデルにより音響パラメータに結合され、隠れパラメータとして音声認識に応用した。いくつかの条件の下で比較してみたところ、調音データの導入による音素の認識率は、音響パラメータのみの場合より、良い結果が得られた。従って、音声生成における調音ダイナミクスは音声認識に大きく寄与できることが期待できる。
社団法人電子情報通信学会の論文
2003-06-19

調音運動ダイナミクスの音声認識への応用(聴覚・音声/一般)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク