講演スライドの文字認識結果を用いた音声認識の改善
スポンサーリンク
概要
- 論文の詳細を見る
講演の音声認識において言語モデル適応のためのテキストとしてスライドの利用が考えられるが,スライドの電子ファイルを必ず入手できるとは限らない.そこで本研究では,講演映像中のスライドの文字認識結果を利用して言語モデルの適応を行い,音声認識の精度の改善を目指す.文字認識結果には多くの誤りが含まれることから,本研究では形態的・話題的な面からこれらをフィルタリングする手法を提案する.これにより得られたスライド文字認識結果をもとに、関連する新聞記事を用いた適応、またスライドを用いたキャッシュモデルに基づく適応を行う.実際の講演データを用いた評価で、音声認識精度の改善を得ることができた.
- 2014-07-17
著者
関連論文
- 会議録作成支援のための国会審議の音声認識システム(音声,聴覚)
- 話し言葉の整形作業における削除箇所の自動同定(音声言語処理)
- 文脈を考慮した確率的モデルによる話し言葉の整形
- 国会音声認識システムの音響・言語モデルの半自動更新
- スライド情報を用いた言語モデル適応による講義音声認識
- 講義音声認識に基づくノートテイクシステム(福祉と音声処理,一般)
- 局所的な係り受けの情報を用いた話し言葉の節・文境界の推定
- 統計的言語モデル変換を用いた音響モデルの準教師つき学習
- 会議録作成支援のための国会審議の音声認識システム(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- 会議録作成支援のための国会審議の音声認識システム(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- 会議録作成支援のための国会審議の音声認識システム(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- 文脈を考慮した確率的モデルによる話し言葉の整形 (音声)
- 話し言葉の整形作業における削除箇所の自動同定(音声言語処理)
- 大学講義のノートテイク支援のための音声認識用言語モデルの適応(言語モデル)
- 統計的言語モデル変換を用いた音響モデルの準教師付き学習(音声,聴覚)
- 講演に対する読点の複数アノテーションに基づく自動挿入
- 予稿の話し言葉変換に基づく言語モデルによる講演音声認識(言語モデル・辞書,第13回音声言語シンポジウム)
- 予稿の話し言葉変換に基づく言語モデルによる講演音声認識(言語モデル・辞書,第13回音声言語シンポジウム)
- SIG-SLP第100回記念シンポジウム:ショート発表
- 講演スライドの文字認識結果を用いた音声認識の改善