音声認識を利用したリアルタイム字幕提示システム

スポンサーリンク

概要

論文の詳細を見る
音声通訳者（入力担当オペレータ）は、話者の音声を聞きながら話者の音声内容を１台目のパソコンである文字入力用パソコンへ発話する。文字入力用パソコンは、音声通訳者が発話した音声を特殊な機器を必要としない安価な音声認識ソフト（ＶｉａＶｏｉｃｅ９８）のダイレクトディクテーションモードにより、テキストウィンドウに、設定した文字サイズ、フォント、文字色で文字化して提示するとともに、ＲＳ－２３２Ｃを介して２台目のパソコンである文字修正用パソコンへ文字コードとして送出する。文字修正用パソコンは文字入力用パソコンから送出された文字コードを読みやすい文字サイズ、フォント、文字色で字幕として表示する。修正担当オペレータは表示された字幕の誤字、脱字を確認し、字幕の修正を行う。このような手法により、リアルタイムで、音声認識を活用した字幕の入力作業と、字幕の誤字、脱字の修正作業が同時に行うことができるリアルタイム字幕提示システムを開発したので、このシステムの機能、特徴等について報告する。

論文 | ランダム

もっと見る

スポンサーリンク