声道長に基づく話者クラスタリングによる不特定話者音声認識
スポンサーリンク
概要
- 論文の詳細を見る
近年, 隠れマルコフモデル(HMM)を用いた不特定話者を対象とする音声認識において, 話者の声道長に応じて入力音響パラメータを正規化する手法や, 音響モデルを適応または選択する手法が提案されている.本稿では, 音声における個人差の主たる要因の一つである声道長を反映するパラメータを, 声道長以外の要因によるスペクトル変動(傾斜・高域)を補正して最尤推定する手法を提案する.また最尤推定する際に, 対象音韻を限定して各音韻毎に最尤推定値を求め, 頻度最大の値を声道長パラメータとして採用する手法を提案する.さらに, 自動推定される声道長パラメータに基づいて学習話者をクラスタリングし, 話者クラスタ毎に学習生成される複数の音響モデルの中から, 入力話者に適切なモデルを選択して用いる音声認識手法について検討する.本手法を用いることにより, 従来の不特定話者音響モデルを用いる場合に比べて31.5%, 性別音響モデルを用いる場合に比べて16.0%単語誤り率が減少した.
- 社団法人電子情報通信学会の論文
- 2001-01-19
著者
-
八幡 洋一郎
シャープ (株) 基盤技術研究所
-
山口 耕市
シャープ (株) A1212PT
-
八幡 洋一郎
シャープ株式会社技術本部基盤技術研究所
-
山口 耕市
シャープ株式会社通信システム事業本部A1212PT