双方向リカレントニューラルネットワークを用いた音素境界推定とその応用
スポンサーリンク
概要
- 論文の詳細を見る
リカレントニューラルネットワークを用いて, 音素などのセグメント境界を推定する方法について述べる.音素境界の正確な推定は, 音声認識における音響モデル作成や大量データベースを用いた音声合成のための自動セグレメンテーション, 音声認識のための前処理などに対して重要な技術である.音素境界推定のために双方向リカレントニューラルネットワーク(bidirectional recurrent neural network;BRNN)を用いており, 音素境界推定実験の結果から, 隠れマルコフモデル(hidden Markov model;HMM)や多層パーセプトロン(multi-layer perceptron;MLP)に基づく方法よりも高い性能が得られた.更に, BRNNから得られる音素境界推定結果を音声認識システムへ適用し, (1)音素境界候補の出力値をHMMに基づく認識系に統合することにより認識性能, および計算時間が改善されること, (2)セグメントモデルに基づく認識系の前処理として利用することにより計算量を大幅に削減できることを示す.
- 社団法人電子情報通信学会の論文
- 1998-07-25
著者
-
匂坂 芳典
(株)ATR音声翻訳研究所
-
シュースター マイク
(株)atr音声翻訳通信研究所
-
マイク シュースター
(株)atr音声翻訳通信研究所
-
深田 俊明
Atr Interpreting Telecommunications Research Laboratories
-
深田 俊明
(株)ATR音声翻訳通信研究所
関連論文
- ニューラルネットワークと言語統計量に基づく発音辞書の自動生成
- 局所的な句構造によるポーズ挿入規則化の検討
- 統計的手法を用いた音声パワーの分析と制御
- 話者正規化を用いた不特定話者音響モデルの学習
- リカレントニューラルネットワークを用いたセグメント境界推定
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- 日本語音声コーパスを対象としたJRTkによる音声認識
- 3次元ビタビ探索に基づく話者正規化手法
- 双方向リカレントニューラルネットワークを用いた音素境界推定とその応用
- スペクトルサブバンドセントロイドを用いた雑音下での連続音声認識
- スペクトルサブバンドセントロイドを用いた雑音下での音声認識
- スペクトルサブバンドセントロイドを用いた雑音下での音声認識
- スペクトルサブバンドセントロイドを用いた雑音下での音声認識
- 発音ネットワークに基づく発音辞書の自動生成
- 音素境界推定ネットワークを利用した音声の自動セグメンテーション
- 自由発話音声認識における音響分析の比較
- リカレントニューラルネットワークを用いた音素境界推定と音声認識への応用
- ACOUSTIC MODELS FOR SPEECH RECOGNITION : A SURVEY
- 発音ネットワークに基づく発音辞書の自動生成
- 複数音素にまたがる誤認識特性を用いた音素候補系列追加モデル
- 仮説数による誤認識箇所推定尺度の評価
- 「のぞみ」-高速低メモリ大語彙ワンパス スタックデコーダ
- 品詞N-gramと単語N-gramの融合言語モデル
- 接続の方向性を考慮した多重クラスN-gram言語モデル
- 接続の方向性を考慮した多重クラス複合N-gram言語モデル
- 接続の方向性を考慮した多重クラス複合N-gram言語モデル