音素配列構造の制約を用いた音素タイプライタ

概要

論文の詳細を見る
従来のCFG、PCFGなどのような文法、あるいはn-gramのような連鎖確率を用いた音声認識手法では、認識候補探索時に強い言語的制約を与えることによって、音響パターンに多少のゆらぎがあっても高い音声認識性能を実現することができる。しかしその一方で、これらの方法では、文法などで許されていない語彙、あるいは構文を用いて表現された音声については認識することができないという問題がある。我々は、語彙や構文に関する制限のない音素タイプライタ型の音声認識の可能性を追求するため、日本語の音素配列構造(phonotactics)という、緩い言語的制約のみを用いた音声認識方式の検討を行なった。言語制約の弱さに起因する認識率の低下を防ぐため、音素モデルとしては逐次状態分割法(SSS)によって生成された精密な音素コンテキスト依存モデル(隠れマルコフ網:HMnet)を用いた。単語発声データで作成したHMnetを文節発声データを用いて発話様式適応した後、279文節発声データに対して認識実験を行なったところ、文節正確率51.3%、音素正解率92.5%という良好な認識性能が得られた。
社団法人電子情報通信学会の論文
1993-12-09