確率モデルによる大語彙連続音声認識の評価

概要

論文の詳細を見る
品詞N-gramの確率モデルに基づく日本語のモデル化を検討し、テキストコーパスのパープレキシティ及び後続単語の予測能力について言語モデルの性能を評価した。次に、語彙数が4699単語のATR日本語対話データベース(ADD)について、大語彙日本語連続音声認識の評価実験を行なった。連続音声認識は話者独立と話者適応化の条件で、また認識対象音声の発声スピードは速い・普通・遅いの三通りを用いた。話者独立の場合には、音節のHMMモデルに音声の動的特徴量を導入する事によって、認識精度を改善した。これらの認識実験を通して、品詞に基づくN-gram言語モデル及びセグメント単位の音節HMMの大語彙連続音声認識における有効性を明らかにした。また、助詞誤りと接頭語誤りが多いことに対処するため、助詞と接頭語の単語マルコフモデルを品詞N-gramモデルと結合する事によって、認識精度の改善へのアプローチを試みた。また、疑似文節ごとにポーズを入れた音声と連続発声との比較認識実験を行なった。
一般社団法人情報処理学会の論文
1996-05-27