ビデオデータにおける音声とクローズキャプションの同期手法
スポンサーリンク
概要
- 論文の詳細を見る
マルチメディアの検索においては、言語(テキスト)から音あるいは画像を検索すること、あるいはその逆向きの検索、いわゆるクロスモーダル検索(cross-modal retrieval)が重要視されている。本報告では、ビデオデータに含まれる言語(テキスト)情報であるクローズドキャプション(CC)ストリームと音声ストリームの対応付けによる同期法について述べる。CCストリームは、音声ストリームの写し(transcript)であるが、実際には出現遅れや欠落などがあり、完全な対応付けは難しい。ここでは、音声ストリームから母音区間を抽出し、その音素系列を求め、一方、CCストリームからは単語辞書に基づき音素系列を構成し、DPマッチングにより対応付けを図る手法を提案し、実験的検討を加える。
- 2000-02-18
著者
-
馬場口 登
大阪大学 大学院 工学研究科
-
山崎 博信
大阪大学産業科学研究所
-
北橋 忠宏
大阪大学 産業科学研究所
-
山崎 博信
大阪大学 産業科学研究所
-
北橋 忠宏
関西学院大学
-
北橋 忠弘
大阪大学産業科学研究所
関連論文
- 視覚的なプライバシー・センシティブ情報とその処理(監視社会におけるプライバシー保護のあり方)
- 5.パターン認識・メディア理解の10大チャレンジテーマ(パターン認識・メディア理解のグランドチャレンジ)
- D-12-15 サーベイランス映像における出現頻度を考慮した不審物体の検出(D-12. パターン認識・メディア理解,一般セッション)
- 番組紹介テキストの特徴に基づく番組紹介スポットの自動生成
- モデル検査ツールによるポリシー整合性検証(セッション10-C : セキュリティマネジメント(3))
- 移動軌跡を用いた歩行者間の人間関係の推定(テーマ関連セッション8,コンピュータビジョンとパターン認識のための学習理論)
- 移動軌跡を用いた歩行者間の人間関係の推定(テーマ関連セッション8)
- 参加者のインタラクションを可視化したマルチメディア議事録の作成(一般セッション5)
- 参加者のインタラクションを可視化したマルチメディア議事録の作成(一般セッション2,三次元画像,多視点画像)
- マルチメディア検索の技術動向
- テレビ視聴行動からの個人的選好獲得(一般セッション5)
- テレビ視聴行動からの個人的選好獲得(一般セッション2,三次元画像,多視点画像)
- 適合性フィードバックを用いた顔の経年変化を含む人物画像検索(一般セッション5,コンピュータビジョンとパターン認識のための学習理論)
- テクスチャ特徴に基づくテレビ番組映像からの高次特徴抽出
- テクスチャ特徴に基づくテレビ番組映像からの高次特徴抽出(一般セッション,システム・制御のためのパターン認識・メディア理解)
- 適合性フィードバックを用いた顔の経年変化を含む人物画像検索(一般セッション5)
- D-12-93 映像編集支援のための事例映像に基づいたショットからの編集区間抽出(D-12.パターン認識・メディア理解,一般講演)
- 映像処理評価用映像データベースについて
- 安心な映像サーベイランスのためのプライバシー保護処理(テーマ関連/オーガナイズドセッション2)
- DS-3-1 音響電子透かしを用いた屋内での録音位置推定(DS-3.マルチメディア情報ハイディング,シンポジウムセッション)
- 隣接行列を用いたアクセス制御ポリシーの統合法(セッション2)
- モデル検査ツールによるポリシー整合性検証(セッション10-C : セキュリティマネジメント(3))
- D-12-40 共起人物を考慮した人物画像検索(D-12.パターン認識・メディア理解,一般セッション)
- DS-3-3 可逆型プライバシー保護画像処理(DS-3.マルチメディア情報ハイディング,シンポジウムセッション)
- 観測型実世界コンテンツ : ディジタルジオラマ(センシングウェブ)
- 部分映像挿入による時間軸上の映像補完
- 部分映像挿入による時間軸上の映像補完
- 映像編集のための事例学習に基づく素材映像からのショット列生成(一般セッション5)
- D-12-80 イメージモザイキングを用いた仮想カメラワークの生成(D-12. パターン認識・メディア理解,一般セッション)
- D-12-66 オブジェクト同定のための照明変動を考慮したSIFT特徴量の洗練化(D-12. パターン認識・メディア理解,一般セッション)
- RFIDタグとカメラ映像を用いたサーベイランス映像中の人物同定(日本語セッション1,第二回日韓パターン認識ワークショップ(KJPR))
- D-12-102 プライバシー保護機能を有する映像サーベイランスシステムPriSurvにおける人物同定(D-12.パターン認識・メディア理解,一般講演)
- 言語と画像の情報統合によるスポーツ映像からの人物・アクション・イベントの抽出
- ビデオデータにおける音声とクローズキャプションの同期手法
- DS-3-10 音響電子透かしの検出強度を用いた位置推定(DS-3.マルチメディア情報ハイディング,シンポジウムセッション)
- 文書画像からの文字切り出しのためのマルチエージェントシステム
- A-7-8 匿名通信方式3-Mode Netにおける中継ノード数の低減化(A-7.情報セキュリティ,一般セッション)
- 多重暗号化と確率的動作選択に基づく双方向通信可能な匿名通信方式 : 3-Mode Net(情報セキュリティ基礎)
- D-12-46 プライバシー保護を考慮した3D屋内環境可視化システム(D-12. パターン認識・メディア理解,一般セッション)
- D-11-130 情報ハイディングを利用した可逆型プライバシー保護画像処理(D-11. 画像工学,一般セッション)
- A-7-10 顧客のサービス利用度を考慮した三者間の信用交渉(A-7. 情報セキュリティ,一般セッション)
- 参加者のインタラクションを可視化したマルチメディア議事録の作成(一般セッション2,三次元画像,多視点画像)
- D-12-101 プライバシー保護機能を有する映像サーベイランスシステムPriSurvにおける前景抽出(D-12.パターン認識・メディア理解,一般講演)
- D-12-100 プライバシー保護機能を有する映像サーベイランスシステムPriSurvにおけるポリシー制御(D-12.パターン認識・メディア理解,一般講演)
- 事例映像への適合度と知覚品質に基づくホームビデオ編集支援(一般,顔・人物・ジェスチャ・行動)
- A-7-10 情報公開ポイントを用いた公平な信用交渉(A-7.情報セキュリティ,一般講演)
- 時空間の相互影響パターンを用いた群衆解析(テーマ関連,顔・人物・ジェスチャ・行動)
- 時空間の相互影響パターンを用いた群衆解析(テーマ関連,顔・人物・ジェスチャ・行動)
- MIRU2000若手プログラム報告
- テレビ視聴行動からの個人的選好獲得(一般セッション2,三次元画像,多視点画像)
- 個人的選好獲得のための特定人物のテレビ視聴時における興味区間推定(マルチメディア応用,画像の認識・理解論文)
- パターン認識・メディア理解のグランドチャレンジ(テーマセッション,パターン認識とメディア理解のフロンティアとグランドチャレンジ)
- 事例に基づく映像ショット列への音楽付与(テーマセッション,クロスモーダル)
- 事例に基づく映像ショット列への音楽付与(テーマセッション,クロスモーダル)
- 事例に基づく映像ショット列への音楽付与(テーマセッション,クロスモーダル)
- 事例に基づく映像ショット列への音楽付与(テーマセッション,クロスモーダル)
- RK-006 固定カメラに対する周辺情報を考慮したズーム映像の生成(教育工学・福祉工学・マルチメディア応用,査読付き論文)
- 文書分類システムの分類誤りに着目した分類ルール修正法
- 完全/不完全ルールの属性変換による矛盾解消のための非対話的手法
- D-12-62 ランダムフォレストを利用した高次特徴の高速検出(D-12.パターン認識・メディア理解,一般セッション)
- PriSurv:プライバシー保護機能を有する映像サーベイランスシステム
- 知識コンバージョンと完全・不完全知識の洗練化の統合について
- 矛盾を契機とする知識の質的転化
- 音声合成のための自動アクセントラベリング(セッション5 : 音声認識+音声合成)
- 音声合成のための自動アクセントラベリング(セッション5 : 音声認識+音声合成)
- 機械の3次元部品データからの完成品の導出
- 放送型映像メディアにおける音環境の理解
- 言語を用いた指示による人体動作アニメーションの作成
- 事例映像への適合度と知覚品質に基づくホームビデオ編集支援(一般,顔・人物・ジェスチャ・行動)
- RK-007 事例映像に基づくシーンに対する適応的音楽選択(教育工学・福祉工学・マルチメディア応用,査読付き論文)
- 多重暗号化と確率的動作選択に基づく匿名通信方式 : 3MN
- 多重暗号化と確率的動作選択に基づく匿名通信方式:3MN
- テレビ視聴行動からの個人的選好獲得のための行動認識(複合現実感とインタラクション)
- データベースからの知識獲得のための事例間の類似性に基づく負例の導出 : 帰納論理プログラミングのデータベースへの適用
- 逆伴意法を用いた例外を含むルールの生成
- Video surveillance system for community spaces (パターン認識・メディア理解)
- 画像例に基づく概念間の距離の経時的解析 (パターン認識・メディア理解)
- 構造化された映像メディア空間に対する映像ポータルの提案
- 事例に基づく映像ショット列に対する音楽ミキシング (パターン認識・メディア理解)
- 開講にあたって
- 1.今なぜグランドチャレンジか(パターン認識・メディア理解のグランドチャレンジ)
- I-070 感性語と名詞の併用による画像検索の基礎考察(I分野:グラフィクス・画像,一般論文)
- プリファレンスを用いた信用交渉における公開クレデンシャルの低減化(一般:情報通信基礎サブソサイエティ合同研究会)
- プリファレンスを用いた信用交渉における公開クレデンシャルの低減化(一般:情報通信基礎サブソサイエティ合同研究会)
- プリファレンスを用いた信用交渉における公開クレデンシャルの低減化(一般:情報通信基礎サブソサイエティ合同研究会)
- グランドチャレンジ
- 疎分散カメラ間の人物グループの対応付けによる人流解析 (パターン認識・メディア理解)
- 不均衡データからのランダムフォレストを利用した高速高次特徴抽出
- 不完全情報を含むフレームの階層化の一手法
- 知識利用型画像検索システムのための画像記述作成支援
- A-17-20 情報提示メディアを統合したナビゲーションインタフェースの検討
- 屋内環境向けナビゲーションシステムにおける個人の嗜好に応じた目的地の推論手法
- 屋内環境向けナビゲーションシステムにおける個人の嗜好に応じた目的地の推論手法
- 帰納論理プログラミングによる学習における相関ルールの発見に関する一考察
- 映像編集のための事例学習に基づく素材映像からのショット列生成(一般セッション2,三次元画像,多視点画像)
- 映像編集のための事例学習に基づく素材映像からのショット列生成(一般セッション2,三次元画像,多視点画像)
- 個人的選好獲得システムの構築--興味区間抽出・興味度推定・プロファイル作成 (特集 画像と放送)
- K-046 映像特徴に基づく撮影者が意図した人物被写体の推定(教育工学・福祉工学・マルチメディア応用,一般論文)
- D-12-32 長方形近似とその補正に基づく屋内環境の三次元モデリング(D-12.パターン認識・メディア理解,一般セッション)
- ネットワークの定性的挙動解析