単語音声認識における時間変化を表現する特徴量の耐雑音性について(聴覚・音声/一般)
スポンサーリンク
概要
- 論文の詳細を見る
音声認識のための特徴量として,著者らは以前の報告で周波数軸方向のスペクトル傾斜を3値化した値に基づく特徴量FTTSS(Fourier Transform of Ternarized Spectral Slope)を提案した.一般的にHMMを用いた音声認識においては,HMMが原理的に区分的に定常な信号を表現する能力しか持たないため,特徴量の時間軸上の変動を加えることで性能の向上を図ることができる.特徴量FTTSSについても,それを抽出した後で時間差分ΔFTTSSをとって認識に利用し,認識率の向上を図った.Δ量の計算にあたっては,フレームごとにスペクトルを表現するパラメータを求め, 5フレーム程度の平均的な傾きを利用している.しかし,聴覚系では蝸牛管での周波数分析に始まり,下丘では周波数増減を検知するニューロンが存在することを考慮すると,スペクトルをパラメータ表現する前に,特定の周波数におけるスペクトルの時間的変動を直接抽出してからパラメータ表現する方法も考えられる.そこで本研究ではΔFTTSSに代わる特徴量として,短時間パワースペクトルの時間軸方向の傾斜に基づく特徴量FTTTS(Fourier Transform of Ternarized Temporal Slope)を提案する.FTTTSは傾斜値を3値化,時間平滑後周波数方向でフーリエ変換して得られる低次項で定義される特徴量である.雑音環境下における単語認識でΔFTTSSとの比較によりその効果を実験的に検証する.
- 社団法人電子情報通信学会の論文
- 2007-07-19
著者
関連論文
- 雑音下音声LSPパラメータ量子化ニューラルネットにおける中間層符号パターンと量子化歪の関連
- 短時間パワースペクトルの時間-周波数傾斜に基づく耐雑音性を持った音声認識特徴量
- 粘弾性体による声帯音源の構築
- 単語音声認識における時間変化を表現する特徴量の耐雑音性について(聴覚・音声/一般)
- 音声認識のためのスペクトルの時間変化を表す特徴量抽出についての検討
- 単語音声認識における時間変化を表現する特徴量の耐雑音性について
- 短時間パワースペクトルの時間-周波数傾斜の3値化に基づく音声特徴量を用いた単語認識(音声・聴覚,一般)
- 短時間パワースペクトルの時間-周波数傾斜の3値化に基づく音声特徴量を用いた単語認識
- ビデオ教材作成支援を目的とした講義音声によるシーン分割(教育工学)
- 非対称声帯モデルによる疾患音声生成の数値シミュレーション(聴覚・音声/一般)
- 音声認識のための特徴量FTTSSの電話音声認識への適用について(聴覚・音声/一般)