音声認識のためのスペクトルの時間変化を表す特徴量抽出についての検討
スポンサーリンク
概要
- 論文の詳細を見る
音声認識のための特徴量として,著者らは以前に周波数軸方向のスペクトル傾斜を3値化した値に基づく特徴量FTTSS (Fourier Transfbrm of Temalized Spectral Slope)を提案した.その特徴量の耐雑音性について特徴量MFCCとの比較を行い,単語音声認識においてその有用性を実験的に確認した.一般的にHMMを用いた音声認識においては,HMMが原理的に区分的に定常な信号を表現する能力しか特たないため,特徴量の時間軸上の変動を加えることで性能の向上を図ることができる.特徴量FTTSSについても,それを抽出した後で時間差分ΔFTTSSをとって認識に利用し,認識率の向上を図った.一方,聴覚では末梢の段階(蝸牛管)で周波数分析を行っていることを考慮すると,時間変化を表す特徴量として,特定の中心周波数点でのパワースペクトルの時間追分を利用することが自然とも考えられる。そこで本研究ではΔFTTSSに代わる特徴量として,短時間パワースペクトルの時間軸方向の傾斜に基づく特微量を定義する.頃斜値そのものは変動性が大きいので,3値化を介した特徴量FTTTS (Fourier Transform of Ternalized Temporal Slope)を提察し,雑音環境下における単語認識でΔFTTSSとの比較によりその効果を実験的に検証する.
- 社団法人電子情報通信学会の論文
- 2007-05-24
著者
関連論文
- 短時間パワースペクトルの時間-周波数傾斜に基づく耐雑音性を持った音声認識特徴量
- 単語音声認識における時間変化を表現する特徴量の耐雑音性について(聴覚・音声/一般)
- 音声認識のためのスペクトルの時間変化を表す特徴量抽出についての検討
- 単語音声認識における時間変化を表現する特徴量の耐雑音性について
- 短時間パワースペクトルの時間-周波数傾斜の3値化に基づく音声特徴量を用いた単語認識(音声・聴覚,一般)
- 短時間パワースペクトルの時間-周波数傾斜の3値化に基づく音声特徴量を用いた単語認識