Earth Mover's Distanceを用いた分散型話者認識(合成・生成,韻律,一般)

概要

論文の詳細を見る
本稿では分散型話者認識において, GMMのような統計的モデルを仮定しないノンパラメトリックな話者認識手法を提案する.話者モデルと認識対象データはそれぞれ,話者登録用音声並びに認識対象音声から得られた特徴パラメータを量子化したデータの集合(ノンパラメトリックな分布)で構成される.話者認識時には,各特徴パラメータの集合間の距離を計算し,最も距離の小さい話者モデルを認識話者とする.話者認識時に必要となる距離尺度には,ある2つの分布間において,一方の分布を他方の分布に変換するための最小のコストにより距離を定義するEarth Mover's Distance を用いる.提案手法の有効性を検証するため,特徴パラメータ抽出にETSI標準DSRフロントエンドを用いて,男性話者21名によるテキスト独立型話者識別実験を行った.実験の結果. GMMを用いた話者識別に比べ識別誤り率を, 8kHzサンプリングにおいて67.7%, 16kHzサンプリングにおいて75.0%削減することができた.
社団法人電子情報通信学会の論文
2004-08-12