音素クラスHMMを使用した話者ベクトルに基づく話者識別法の検討(特徴量・音響モデル,第9回音声言語シンポジウム)

概要

論文の詳細を見る
本研究では,音素モデルを用いた話者ベクトルに基づくテキスト独立型話者識別について述べる.本話者識別システムはアンカーモデルに基づいており,識別対象話者の発声とアンカーモデル間の尤度からなる話者ベクトルによって,各々の話者が話者空間に配置されている.識別対象話者の音響モデルを必要としないという利点があり,1発話程度の極めて少量の登録用発声で話者識別が可能どなる.欠点として従来法では識別性能が低いという問題点があったが,アンカーモデルに従来用いられている混合ガウス分布モデル(GMM)ではなく,音素HMMを使用することで性能改善が得られている[1].本研究では,音素をクラスタリングした音素クラスHMMを用いることで更なる性能の向上を図る.音素クラスHMMの対数尤度の計算には,音素認識器を使用する.30名の日本語話者識別タスクで本手法の評価を行った.実験では,平均5.5secの極く短い発話を識別対象話者の登録用データとして使用した.結果として音素決定木に基づいてクラスタリングした15音素クラスのHMMを用いたとき,35音素HMMベースのアンカーモデルと比較して17.1%の相対的改善が得られた.
一般社団法人情報処理学会の論文
2007-12-20