音素クラスタモデルを用いた未登録語検出法の検討

概要

論文の詳細を見る
すべての音素を数種類のクラスタに分類し作成した音響モデル(音素クラスタモデルと呼ぶ)を用いた未登録語検出法を提案する. ここでは, 日本語の音節構造を考慮したクラスタモデル, 音響モデルの自動クラスタリングにより決定したクラスタモデル, 全音素を一つのクラスタとしたクラスタモデルの比較検討を行った. 未登録語を含んだ文章の未登録語検出実験において, 日本語の音節構造を考慮した音素クラスタモデルは, 従来の音素ごとのモデルを用いる方法と比較して, 処理量を約半分に削減しながらほぼ同等の単語accuracyを達成することができた. このことから, 提案する方法が処理量を抑えた未登録語検出に, 有効であることがわかった. またこのとき, 未登録語区間のスコアに対して, クラスタN-gramの確率をペナルティとして使用することが, 有効であることがわかった. また, 多段階による認識方式の1段階目として本提案法により未登録語を検出し, 2段階目で検出された未登録語の音素系列を認識する方式についても述べる.
1997-09-25