音素弁別特徴ベクトルを用いた頑健な音声認識の検討

スポンサーリンク

概要

論文の詳細を見る
本報告では,入力音声から音素弁別特徴(DPF)を抽出し,頑健な音声認識システムを実現する方法を検討する.音素弁別特徴抽出過程では,まず入力音声を局所特徴(LF)に変換した後,LFとΔPから成る音響特徴系列を多層ニューラルネットワーク(MLN)に通すことで,音素弁別特徴へ写像する.MLNの出力は,前後のコンテキストを含む33次元(11次元×3)の音素弁別特徴を使用する.評価実験では,MLNの出力ユニットの構成に関する比較を行った後,提案のDPFパラメータと標準的なMFCCパラメータセットを比較する.実験の結果,clean speechではほぼ同等の性能を達成することを不特定話者孤立単語認識実験から示す.また,DPFパラメータの耐雑音性能を4種類の加法性雑音を重畳して評価し,1種類を除き標準パラメータセットと比較して良好な結果が得られることを示す.提案方法とMFCCとの組み合わせについても評価を行う.
2002-12-12

著者

関連論文

もっと見る

スポンサーリンク