アフィン変換不変性を有する局所的特徴量を用いた音声認識(ポスターセッション,第10回音声言語シンポジウム)

概要

論文の詳細を見る
本稿では,不特定話者音声認識における音響特徴量として,アフィン変換不変性を持つ局所特徴量(Localized Affine Invariant Features; LAIF)を提案する.LAIFは,ケプストラムベクトル時系列から直接計算することができる特徴量である.話者の違いは,ケプストラムベクトルに対するアフィン変換で近似できることから,ケプストラムベクトルから抽出したLAIFは話者の違いにおよそ不変となる.そのためLAIFを用いれば,話者正規化や話者適応のための学習データがまったく得られない状況でも,話者性に頑健な音声認識を実現することができる.我々は,不特定話者の日本語孤立単語音声認識にLAIFを用いる実験を行った.実験の結果,LAIFをMFCCやΔMFCCと結合して用いることにより,不特定話者音声認識の認識率を向上させることができた.特に,学習データと評価データで性別のミスマッチがある場合,MFCC+ΔMFCC+LAIFは,MFCC+ΔMFCCと比較して37%のエラー削減率を実現した.
社団法人電子情報通信学会の論文
2008-12-02