FPM-LRによる不特定話者連続音声認識
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,音素識別にFPM(Fuzzy Partition Model)構造をもつニューラルネットワークを用いた不特定話者連続音声認識について述べる.FPMはTDNN(Time-Delay Neural Network)と比較して高速な学習が可能である.この高速学習性を用いて,多大な学習時間を要する点が問題とされていた不特定話者の音素識別学習が可能となった.本論文では音素識別にFPMを用い,LRパーザと組み合わせたFPM-LR音声認識システムを用いて不特定話者の連続音声認識の評価を行った.実験は,男女各8名の音声資料を用いて音素識別学習を行い,278文節を用いて認識性能の評価を行った.実験の結果,FPMはTDNNと比較して学習時間が短いこと,男性,女性,およびそれらの混合にするMulti-FPM-LR方式を用いることで性能の向上が図れること,学習に多様な発話様式の音声(単語,文節)を用いることの効果,音響特徴量にパワーおよびデルタスペクトルを加えることの効果が示され,278文節の認識において認識率80.0%が達成された.最後に,文音声認識の結果についても述べる.
- 1993-11-25
著者
-
杉山 雅英
(株)ATR自動翻訳電話研究所
-
加藤 喜永
(株)atr自動翻訳電話研究所((株)atr音声翻訳研究所)
-
杉山 雅英
(株)atr自動翻訳電話研究所(会津大学コンピュータ理工学部)
-
福沢 圭二
(株)ATR自動翻訳電話研究所(日通工(株)中央研究所)
関連論文
- 混合連続分布HMM移動ベクトル場平滑化話者適用方式
- FPM-LRによる不特定話者連続音声認識
- セグメント特徴量を用いた雑音環境下でのHMM音声認識
- 1)セグメント特徴量を用いた雑音環境下でのHMM音声認識(視聴覚技術研究会)