話者クラス音響モデル及び単語グラフ統合を用いた音声認識(音声,聴覚)

概要

論文の詳細を見る
音声認識における話者性の問題に関し,話者クラスモデルに基づく新たな手法を提案する.提案する話者クラスモデル音声認識手法と話者適応の組み合わせによる性能向上を目的とする.本研究では認識対象音声と学習話者間の類似度を定義し,認識対象音声に音響的に類似する学習話者を選択し,話者クラスモデルを作成し認識する方法を基本とする.この方法の更なる性能向上を目指し,複数話者クラスモデルの利用と単語単位の話者クラスモデル選択手法を提案する.提案法を実現するために単語グラフ統合法を利用する.認識処理においてはまず複数の話者クラスモデルから得られた複数の単語グラフを統合し一つの単語グラフを得る.次に複数の話者クラスモデルを用いて単語グラフに含まれる単語ごとに複数の音響スコアを付与する.この中からゆう度基準でスコア選択し,選択したスコアの統合を行う.以上の処理により単語ごと入力音声に音響的特徴の類似した話者クラスモデルを使用することが実現できる.以上の手法の有効性を講演音声認識実験で示す.教師なし話者適応法と組み合わせることにより,従来法と比較し性能向上が得られることを示す.
2013-11-01