頑健な話者認識システムの構築を目指して

スポンサーリンク

概要

論文の詳細を見る
話者認識システムの性能を劣化させる要因の一つに, 学習と認識との時期差やテキストの違いに起因する発声変動がある.本論文では, 基本的な話者認識システムの構成について解説するとともに, 発声変動に対して話者認識システムが頑健となるように, 話者のテンプレート/モデルの更新, および類似度正規化に関して検討した研究例のいくつかを紹介する.話者のテンプレート/モデルの更新については, 最近の複数回の発声の重ね合わせによって作成したテンプレートによって, 話者のテンプレートを更新する方法, 最近に発声した少量の更新用のデータを用いて話者のモデルを逐次的に更新する方法について述べる.類似度正規化に関しては, 尤度比検定, 事後確率の考えに基づく方法, Weighting Models Rankによる方法について述べる.各方法は, それぞれの発声変動を含む実験データに対して, 認識誤り率を半分以下にする効果がある.
社団法人映像情報メディア学会の論文
1997-07-22

著者

松井知子
NTTヒューマンインタフェース研究所

関連論文

もっと見る

スポンサーリンク