複数の言語モデルと言語理解モデルによる音声理解の高精度化(音声認識・理解,<特集>情報爆発論文)

概要

論文の詳細を見る
本論文では,音声対話システムにおいて,複数の言語モデルと複数の言語理解モデルを用いることで,高精度な音声理解を行う手法について述べる.ユーザの発話によって適した言語モデル・言語理解モデルの組合せは異なることから,単一の音声理解方式で様々な発話に対して高精度な音声理解を実現することは難しい.そこで本論文では,まず,複数の言語モデルと言語理解モデルを用いて複数の理解結果を得ることで,理解結果の候補を得る.次に,得られた複数の理解結果に対して,ロジスティック回帰に基づき発話単位の信頼度を付与し,その信頼度が最も高い理解結果を選択する.本論文では,言語モデルとして文法モデルとN-gramモデルの2種類,言語理解モデルとしてFinite-State Transducer(FST)とWeighted FST(WFST),Keyphrase-Extractorの3種類を用いた.評価実験では,言語モデル・言語理解モデルのいずれかを複数用いた場合と比較して,コンセプト理解精度の向上が得られた.また,従来のROVER法による理解結果の統合と比較し,本手法の有効性を示した.
2010-06-01