声調核モデルとニューラルネットワークを用いた標準中国語連続音声の声調認識(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)

概要

論文の詳細を見る
連続音声における標準中国語の声調は、複雑な特性を示す。このため、声調認識は未解決の課題として、多く研究されている。ここでは、2つの手法を統合することによって、声調認識の高度化を図る。2つの手法のうち1つ目は、声調核モデルで、当該音節のF0パターンを特徴付ける部分に着目することにより、前後の音節への過渡部分の影響(声調結合)を押さえるものである。この際、声調核を自動抽出することが求められるが、それを高精度で行う手法も開発した。2つ目は、多層パーセプトロン(MLP)を声調認識に用いることにより、HMMでは困難であった(F0と持続時間といった)声調に関係する異種の特徴を利用することを可能とすることである。実験の結果、(軽声を含めた)声調認識誤りが、声調核モデルから得られる特徴を用いたHMMでは14.5%、声調核モデルを用いないMLPでは14.1%であるのに対し、手法を統合した場合、12.8%に減少した(10%の誤り軽減)。この結果は、手法の統合が声調認識の性能向上に有効であることを示すものである。
社団法人電子情報通信学会の論文
2006-12-14