講演スライドの文字認識結果を用いた音声認識の改善

スポンサーリンク

概要

論文の詳細を見る
講演の音声認識において言語モデル適応のためのテキストとしてスライドの利用が考えられるが,スライドの電子ファイルを必ず入手できるとは限らない.そこで本研究では,講演映像中のスライドの文字認識結果を利用して言語モデルの適応を行い,音声認識の精度の改善を目指す.文字認識結果には多くの誤りが含まれることから,本研究では形態的・話題的な面からこれらをフィルタリングする手法を提案する.これにより得られたスライド文字認識結果をもとに、関連する新聞記事を用いた適応、またスライドを用いたキャッシュモデルに基づく適応を行う.実際の講演データを用いた評価で、音声認識精度の改善を得ることができた.
2014-07-17

著者

秋田祐哉
京都大学

関連論文

もっと見る

スポンサーリンク