決定木に基づく音素コンテキスト・次元・状態位置の同時クラスタリングによる音響モデリング(音響と音声処理,音声強調,ロバスト音声認識)

概要

論文の詳細を見る
近年,連続音声認識システムにおける音響モデルとして,前後の音素環境を考慮した音素コンテキスト依存隠れマルコフモデルが広く利用されている.音素コンテキスト依存隠れマルコフモデルを利用する場合,総モデル数が増加しシステムが非常に多くの自由パラメータを含むため,統計的に信頼できるモデルを推定することが困難になる.このため,様々なパラメータ共有手法が提案されており,音素決定木に基づく状態共有法は,この問題の優れた解決法の一つである.しかし,状態単位の共有構造では特徴ベクトルの全次元に同一の共有構造を構築するため,各特徴量に対し異なる共有構造を構築できない,適切なパラメータ数を割り当てることができない,といった問題点がある.本報告では,記述長最小化基準に基づく次元分割法を導入して音素決定木を拡張し,音素・次元決定木を提案する.さらに,状態位置に関する分割条件を加え,音素コンテキスト・次元・状態位置を決定木に基づき同時にクラスタリングする手法を提案する.不特定話者連続音声認識実験の結果,提案法は従来の状態クラスタリング法と比較して13%-15%誤り率を削減することができた.
社団法人電子情報通信学会の論文
2003-04-17