スペクトルサブトラクションを用いた十分統計量に基づく環境・話者適応

概要

論文の詳細を見る
実環境での音声認識では,環境適応や話者適応といった音韻モデルの適応技術が必要となる.本研究では,スペクトルサブトラクションを用いた十分統計量に基づく環境・話者適応を行う.十分統計量を用いた環境・話者適応アルゴリズムでは,任意の1発声文と数十秒の雑音データのみを入力として教師なし学習を行う.適応手順は,以下の3段階からなる.(1)雑音データをデータベースに重畳し十分統計量を計算する.(2)任意の1発声文に対しGMM話者モデルを用いて音声データベースから音響的特徴が近い話者集合を選択する.(3)選択された話者集合の十分統計量を用い適応モデルを生成する.さらに発声文および雑音データを重畳した音声データベース全体にスペクトルサブトラクションを施すことで,SNRを改善し高精度な適応を行う.20dBのSNRにおける認識実験では,提案手法により適応した音韻モデルの認識率は,雑音データを重畳した音声データからEMアルゴリズムを用いて作成されたmatchedモデルに比べ,PTMで約76%から約82%に改善された.さらに,この適応モデルを初期モデルとしてMLLRによる適応を行った場合,単純にMLLRを行うよりも高い認識精度が得られることを示す.また,雑音レベルの変動の認識率への影響についても述べる.
一般社団法人情報処理学会の論文
2002-02-01

スペクトルサブトラクションを用いた十分統計量に基づく環境・話者適応

スポンサーリンク

概要

著者

関連論文

スポンサーリンク