講演音声認識のための音響・言語モデルの検討

スポンサーリンク

概要

論文の詳細を見る
現在,音声認識は不特定話者大語彙連続音声認識の枠組みにおいて,新聞記事などの読み上げ音声で実用化レベルまで精度が向上している.しかし,講演音声などのいわゆる話し言葉からなる自然発話は,認識を困難にさせる要素が多数存在し,まだまだ実用化の域には達していない.本研究の目的は,自然発話の認識が困難な要因について,音響的な観点と言語的な観点に着目し,自然発話用の音響モデルと言語モデルを作成することである.音響モデルに関しては,音声学習データ選択を行い,言語モデルに関しては,発音変形依存の形態素で学習することで高精度なモデルを作成した.適応を行わない認識率では31.4%のWERを得た.また,第2パス言語モデルに様々なカットオフや4gramを導入した.4gramによる効果は無く,カットオフの効果は0.6%であった.更に,音響モデルを話者適応し,3.2%の改善を得た.
社団法人電子情報通信学会の論文
2002-12-12

著者

関連論文

もっと見る

スポンサーリンク