単語音声認識における時間変化を表現する特徴量の耐雑音性について(聴覚・音声/一般)

概要

論文の詳細を見る
音声認識のための特徴量として,著者らは以前の報告で周波数軸方向のスペクトル傾斜を3値化した値に基づく特徴量FTTSS(Fourier Transform of Ternarized Spectral Slope)を提案した.一般的にHMMを用いた音声認識においては,HMMが原理的に区分的に定常な信号を表現する能力しか持たないため,特徴量の時間軸上の変動を加えることで性能の向上を図ることができる.特徴量FTTSSについても,それを抽出した後で時間差分ΔFTTSSをとって認識に利用し,認識率の向上を図った.Δ量の計算にあたっては,フレームごとにスペクトルを表現するパラメータを求め, 5フレーム程度の平均的な傾きを利用している.しかし,聴覚系では蝸牛管での周波数分析に始まり,下丘では周波数増減を検知するニューロンが存在することを考慮すると,スペクトルをパラメータ表現する前に,特定の周波数におけるスペクトルの時間的変動を直接抽出してからパラメータ表現する方法も考えられる.そこで本研究ではΔFTTSSに代わる特徴量として,短時間パワースペクトルの時間軸方向の傾斜に基づく特徴量FTTTS(Fourier Transform of Ternarized Temporal Slope)を提案する.FTTTSは傾斜値を3値化,時間平滑後周波数方向でフーリエ変換して得られる低次項で定義される特徴量である.雑音環境下における単語認識でΔFTTSSとの比較によりその効果を実験的に検証する.
社団法人電子情報通信学会の論文
2007-07-19

単語音声認識における時間変化を表現する特徴量の耐雑音性について(聴覚・音声/一般)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク