音響セグメントネットワークを用いた大語い音声認識

概要

論文の詳細を見る
音素は音声認識でよく用いられる音声単位であるが,自動認識の単位として問題点をもつ.本論文では,この問題点を考慮し新たに定義した音声単位である音響セグメントを用いた認識方式を紹介する.また,大語い単語音声認識におけるこの方式の評価について述べる.音響セグメントは,既存の音声知識と大量の音声の観察に基づき,日本語の音声認識を目的として我々が定義したもので,固有のスペクトルと単語内位置に応じた継続時間長をもつ111種類の音声単位である.単語認識においては,単語の音素表記に音素-音響セグメント変換ルールを適用することにより自動生成した音響セグメントネットワークを単語テンプレートとして使用した.音響セグメントのスペクトルは,28種類のカテゴリーをもち,各カテゴリーごとに複数の音響テンプレートで記述した.音響テンプレートは話者ごとの184単語の登録発声から自動抽出した.また,各音響セグメントの継続時間長については,その平均と標準偏差を,男性10名の合計10,000文節発声から求めた.男女各5名による特定話者1,000単語認識において本方式を評価した結果,平均認識率98.0%が得られ,その有効性が確認できた.
社団法人電子情報通信学会の論文
1994-03-25