単語音声認識における音素信頼度ゆう度を用いた未知語のリジェクション

概要

論文の詳細を見る
音声認識の実際的な使用においては, 語彙(い)外発声に対する適切な処理が重要である.代表的なリジェクト方法として, 語彙に応じ, anti-keywordモデルを作成, ゆう度正規化に用いるものがある.これにはタスク依存性があり, 大語彙タスクや語彙が切り換わるタスクでは実現が困難である.これに対し, タスクに独立な方法は, 語彙制約のない音声認識系を並列に動作させ, ゆう度正規化を行うものである.しかし, 語彙制約なし認識系の精度が一般に低いため, リジェクト性能にも限界がある.そこで, 本研究では, タスク独立で高精度なリジェクト方法を目標に, 語彙制約なし認識系によるゆう度正規化に加え, 各音素におけるゆう度の分布差を利用し, 部分区間での照合を導入する.探索時にその差に応じて累積音響ゆう度に重み付けすることで, 各音素での照合精度を向上させる.実験により, 等誤り率において音素信頼度ゆう度を用いない場合に比べ, 認識率を4%改善できた.更に, 識別誤り最小化学習(MCE), gender modelを用いることで, よりリジェクト精度を向上できることができた.また, 音素信頼度ゆう度は, MCE学習の場合, 特に改善効果があることがわかった.
社団法人電子情報通信学会の論文
2000-02-25