短時間パワースペクトルの時間-周波数傾斜の3値化に基づく音声特徴量を用いた単語認識(音声・聴覚,一般)
スポンサーリンク
概要
- 論文の詳細を見る
音声認識で用いられる代表的な特徴量としてMFCC (Mel Frequency Cepstrum Coefficient)やLPC(Linear Predictive Coefficient)ケプストラムが挙げられるが,雑音がある環境下ではこれらの特徴量を利用して音声認識を行うと,認識率が著しく低下する.そこで著者らは以前に周波数軸方向のスペクトル傾斜を3値化した値に基づく特徴量FTTSS (Fourier Transform of Ternalized Spectral Slope)を提案し,その特徴量の耐雑音性についてMFCCとの比較を行い,単語音声認識において有用性を確認することができた.本研究では特徴量のΔに代わる特徴量を提案することを目的に,短時間パワースペクトルの時間軸方向のスペクトル傾斜を3値化することに基づく特徴量を用い音声認識にもたらす効果を実験的に検証する.
- 社団法人電子情報通信学会の論文
- 2006-07-14
著者
関連論文
- 短時間パワースペクトルの時間-周波数傾斜に基づく耐雑音性を持った音声認識特徴量
- 単語音声認識における時間変化を表現する特徴量の耐雑音性について(聴覚・音声/一般)
- 音声認識のためのスペクトルの時間変化を表す特徴量抽出についての検討
- 単語音声認識における時間変化を表現する特徴量の耐雑音性について
- 短時間パワースペクトルの時間-周波数傾斜の3値化に基づく音声特徴量を用いた単語認識(音声・聴覚,一般)
- 短時間パワースペクトルの時間-周波数傾斜の3値化に基づく音声特徴量を用いた単語認識
- 音声生成数値モデルによる発声条件の検討