最尤推定に基づく線形変換を用いた声道長正規化
スポンサーリンク
概要
- 論文の詳細を見る
声道長正現化(Vocal Tract Length Normalization : VTLN)は音声認識において最も盛んに研究されている話者適応技術の1つである。本報告では最尤推定法を用いて周波数軸の線形伸縮係数を推定し、これによって音響モデルのパラメータを適応する話者適応法を提案する。現在、HMM(隠れマルコフモデル)のパラメータ推定に用いられるEMアルゴリズムに基づくケプストラム領域での声道長正規化手法が提案されている。これら声道長正規化手法の多くは周波数領域において端点固定の非線形伸縮となり、HMMパラメータ推定はケプストラム領域で行われていた。これに対し、提案手法は唯一つの伸縮係数を持つ線形な周波数伸縮を仮定しており、テイラー展開の一次項近似によりメルケプストラム領域でモデル化される手法である。提案手法は不特定話者孤立単語認識実験を通して認識性能の向上が確認された。
- 社団法人電子情報通信学会の論文
- 2001-12-13
著者
-
嵯峨山 茂樹
東京大学大学院情報理工学系研究科
-
下平 博
北陸先端科学技術大学院大学 情報科学研究科
-
六井 淳
北陸先端科学技術大学院大学
-
六井 淳
島根大学総合理工学研究科
-
中井 満
北陸先端科学技術大学院大学
-
下平 博
北陸先端科学技術大学院大学
関連論文
- 音楽知識に基づく音高・音長の組合せ特徴量を用いたMIDIデータからの作曲家判別(音楽解析)
- 文字構造の文法記述に基づくオンライン手書き漢字列認識(テーマセッション4,文字・文書の認識・理解)
- ストローク間の位置関係の文法記述に基づくオンライン手書き漢字認識(テーマセッション5(オンライン処理),文字・文書の認識・理解)
- 理想時間周波数マスキングの分離性能と音源スパース性の関係(ブラインド信号処理の技術とその応用論文)
- リズムマップ : 音楽音響信号からの単位リズムパターンの抽出と楽曲構造の解析(音響分析一般(2))
- 日本語歌詞からの自動作曲(音楽とOR)
- テンポ曲線と隠れマルコフモデルを用いた多声音楽MIDI演奏のリズムとテンポの同時推定(演奏認識/合成,便利で身近な音楽情報処理)
- 調波音・打楽器音分離手法を用いた音楽音響信号からの自動和音認識(音響分析一般(2))
- ストロークHMMに基づくオンライン手書き文字認識の特徴量の検討
- Orpheus : 歌詞の韻律に基づいた自動作曲システム(自動作曲)