ビデオデータにおける音声とクローズキャプションの同期手法

スポンサーリンク

概要

論文の詳細を見る
マルチメディアの検索においては、言語(テキスト)から音あるいは画像を検索すること、あるいはその逆向きの検索、いわゆるクロスモーダル検索(cross-modal retrieval)が重要視されている。本報告では、ビデオデータに含まれる言語(テキスト)情報であるクローズドキャプション(CC)ストリームと音声ストリームの対応付けによる同期法について述べる。CCストリームは、音声ストリームの写し(transcript)であるが、実際には出現遅れや欠落などがあり、完全な対応付けは難しい。ここでは、音声ストリームから母音区間を抽出し、その音素系列を求め、一方、CCストリームからは単語辞書に基づき音素系列を構成し、DPマッチングにより対応付けを図る手法を提案し、実験的検討を加える。
2000-02-18

著者

関連論文

もっと見る

スポンサーリンク