3次元Viterbi法を用いた音素情報と音調情報の統合による中国語連続音声認識

概要

論文の詳細を見る
本稿では、3次元Viterbi法により音素情報と音調情報を統合した中国語連続音声認識システムについて報告する。まず基本となる (音調情報を用いない) 連続音声認識システム及び音調認識システムの概要を説明する。前者では60個の音素クラスのHMMを用い、後者では11個の音調単位のHMMを用いている。音素情報と音調情報の結合は、音素モデルの状態と音調モデルの状態と時間との3次元空間において最適なパスを求めることにより行なっている。扱うタスクはホテル予約で、文脈自由文法 (CFG) で中国語の構文を記述している。テストセットパープレキシティは27.3である。10名の話者の各々が発声した107文について、音素情報と音調情報の重みを変化させ、また最適なパスに3種類の制限を加えて実験した結果、最良の結果として平均文認識率75.9%を得た。音調情報を用いない場合より約12.4%改善された。また、この改善は有意水準1%で有意であることがわかった。
社団法人電子情報通信学会の論文
1997-11-21