話者不変な相対関係特徴を音響単位とする音響モデリングに関する実験的検討(音響モデル,第11回音声言語シンポジウム)

概要

論文の詳細を見る
音声は年齢,性別,声道長や音響機器などの非言語的要因によって変形し,多様性に富んでいる.筆者らはこれらの非言語的な音響変形におよそ不変な音声の構造的・抽象的表象を提案してきた.この表象は音声の動きのみに着眼した物理表象である.先行研究において,音声の構造的表象に基づく音声認識について種々の検討を行ってきた.構造に基づく音声認識の問題点として,特徴量に対する次元の呪いと,大語彙音声認識や任意語彙への対応が難しい,という点が挙げられる.本報ではこれらの問題に対処するため,パラメータ共有学習に基づく学習の効率化と得られた共有モデルを用いた単語音響モデリングを提案する.相対関係を記述するエッジベクトルを考え,エッジベクトル空間におけるボトムアップクラスタリングによって共有関係をモデル化する.一方,新規単語をモデル化する際には,登録用発声に対して共有エッジモデルを割り当てることでモデル化する.日本語5母音連結発声による孤立単語音声認識実験を行い,提案手法の有効性について確認した.
2009-12-14