3次元Viterbi法を用いた音素情報と音調情報の統合による中国語連続音声認識

概要

論文の詳細を見る
本論文では, 3次元Viterbi法により音素情報と音調情報を統合した中国語連続音声認識システムについて報告する。まず基本となる(音調情報を用いない)連続音声認識システム及び音調認識システムの概要を説明する。前者では60個の音素クラスのHMMを用い, 後者では11個の音調単位のHMMを用いている。音素情報と音調情報の結合は, 音素モデルの状態と音調モデルの状態と時間との3次元空間において最適なパスを求めることにより行っている。扱うタスクはホテル予約で, 文脈自由文法(CFG)で中国語の構文を記述している。テストセットパープレキシティは27.3である。10名の話者のおのおのが発声した107文について, 音素情報と音調情報の重みを変化させ, また最適なパスに3種類の制限を加えて実験した結果, 最良の結果として平均文認識率75.9%を得た。音調情報を用いない場合より約12.4%改善された。また, この改善は統計的に有意であることが分かった。
社団法人日本音響学会の論文
1998-07-01