発音変形依存モデルを用いた講演音声認識(音声,聴覚)

概要

論文の詳細を見る
本研究では話し言葉の音声認識で問題となる各種変動要因のうち,不明りょうな発音などを中心とした発音変形の問題について検討する.一般に発音変形への村処として,一つの表記に対し想定される読みを複数登録する方法がとられる.しかし単純に読みを増加させるとマッチングの対象が増加し,逆に認識時に悪影響を及ぼす.そこで本研究では発音変形の言語的な偏りを利用するため,発音変形を考慮した形態素解析データに基づく言語モデルを提案する.以上を実現するため,「日本語話し言葉コーパス」(CSJ)の書き起こしテキストを利用して,約95万語からなる発音変形のエントリを含む学習テキストを作成,それに基づき言語モデルを学習する.CSJに含まれる講演音声の認識実験を行い,4講演の平均で単語誤り率(WER)の改善率は26.5%を達成し,話し言葉の認識においては,発音変形への対処が重要であることを示した.また言語モデルや音響モデルの教師なし適応法を導入することにより,更なる性能向上を目指した結果,WERが適応なしの場合の21.8%から,言語モデル及び音響モデルの教師なし適応を行った場合で17.6%に減少した.
社団法人電子情報通信学会の論文
2006-02-01