新聞読み上げコーパスによるスタックデコーダの評価

スポンサーリンク

概要

論文の詳細を見る
本稿では、大語い連続音声認識用スタックデコーダ「のぞみ」について述べる。このデコーダを用い、日本語新聞読み上げ音声コーパスに対し音声認識実験を行った結果、95%以上の単語認識性能を得ることができた。この音声認識実験に用いた音響モデルは、ANAS/ASJコーパスを学習セットとした2000、および3000状態の連続混合分布HMM、言語モデルは、RWCテキストコーパスを学習セットとした3-gramを用いた。これらのモデルは、情報処理振興事業協会(IPA)により提供されている。スタックデコーダ「のぞみ」は、環境非依存の音響モデルを用いることにより、PentiumIIプロセッサ300MHzのハードウェアにおいても、実時間認識が可能である。その時の単語認識率は89%である。また、言語モデルをハードディスク上で扱うことが可能であるため、必要なメモリサイズをわずか4MBに抑えることができる。
社団法人電子情報通信学会の論文
1998-12-11

著者

シュスターマイク
Atr音声翻訳通信研究所

関連論文

スポンサーリンク