音響モデルの構造決定のための統一的な枠組 : 最尤推定による逐次状態分割法と質問に基づく決定木生成法

概要

論文の詳細を見る
現在のところ、殆どの大語彙音声認識システムで各状態を共有化した、音素環境依存の音響HMMが用いられている。一般に、そのHMMの構造(状態の共有化など)は決定木を用い、音素環境による状態レベルでのクラスタリングを通して学習する。本報告では、HMMの構造を学習するための二つの分割アルゴリズム、音素決定木(Phonetic Decision Trees;PDT)と尤度最大化基準による逐次状態分割(Maximum Likelihood Successive State Splitting;ML-sss)について検討を行なう。二つのアルゴリズムの主な違いは、ML-SSSでは全ての音素の組合せを許すのに対し、PDTでは予めヒューリスティックに定めた音韻学上の知識に基づいて、音素の組合せ方が制限される点である。本報告では、両者は本質的に同じアルゴリズムと見なせることを示す。また、自然発話の日本語の音声認識実験を通して、PDTとML-SSSを組み合わせて用いると、それぞれを単独で用いた場合と比較して、高い認識性能が得られることを示す。さらに、ML-SSSにおいて問題となる、学習データには含まれない未知の音素環境に対処するために、分割履歴バックオフ(Split History Backoff)のアルゴリズムを提案する。
社団法人電子情報通信学会の論文
1999-06-18