口唇動作と音声の共起に着目した被写体と話者の不一致検出 : ニュース映像への適用と評価(萌芽セッション,エンタテインメントのためのメディアとリアリティ)
スポンサーリンク
概要
- 論文の詳細を見る
ニュース映像中の人物の発言シーンはマルチメディア情報を豊富に含み,資料価値が高い.発言シーンの抽出には顔領域の位置や大きさを利用するアプローチが考えられる.しかし,ナレーションシーンのように被写体と話者が一致していないシーンも存在するため,それだけでは発言シーンを必ずしも抽出できない.そこで我々は,発生する音とそれに伴う口唇動作から得られる複数の音声特徴と画像特徴の相関を利用して被写体と話者の一致・不一致を識別する手法を提案してきた.しかしながら,理想的な環境で撮影した映像に対する評価のみで,実際に放送されるニュース映像に対する評価にとどまっていた.本稿では,理想的な環境で撮影した映像を用いた実験とその結果,および実際に放送されたニュース映像を用いた実験とその結果について報告する.これら2つの実験から,提案手法の有効性および有用性を確認した.
- 2011-05-06
著者
-
道満 恵介
名古屋大学大学院情報科学研究科
-
出口 大輔
名古屋大学大学院情報科学研究科
-
井手 一郎
名古屋大学大学院情報科学研究科
-
村瀬 洋
名古屋大学大学院情報科学研究科
-
井手 一郎
名古屋大学大学院情報科学研究科メディア科学専攻
-
井手 一郎
国立情報学研究所
-
村瀬 洋
Nttコミュニケーション科学基礎研究所
-
高橋 友和
岐阜聖徳学園大学
-
村瀬 洋
日本電信電話株式会社nttコミュニケーション科学基礎研究所:(現)名古屋大学大学院情報科学研究科
-
村瀬 洋
日本電信電話株式会社 Nttコミュニケーション科学基礎研究所
-
熊谷 章吾
名古屋大学大学院情報科学研究科
-
井手 一郎
名古屋大学
-
村瀬 洋
名古屋大学
-
出口 大輔
名古屋大学
関連論文
- Twitterにおける実況書き込み検出手法の検討(映像コンテンツ,人工現実感)
- 気管支鏡ガイダンスシステムのための自動気管支構造認識手法の開発
- 調理動作に注目したマルチメディア料理レシピの提案(萌芽(生活メディア)セッション,生活メディア)
- 色変動を考慮した生成型学習法による道路標識検出器の構築(パターン認識応用,画像の認識・理解論文)
- 画像認識とGPU (特集 ロボットを進化させる最先端IT技術)
- GPUを利用した局所濃淡構造解析の高速化に関する検討(一般セッション,センシングのための認識・理解)
- 気管支の変形に対応したマーカレス気管支鏡追跡手法に関する検討(腹部CT)
- 画像認識とGPU
- 空撮画像と時系列車載カメラ画像との照合による自車位置推定(テーマセッション関連,一般物体認識・画像特徴量)
- 2値パターン拘束と超解像を組み合わせた低解像度QRコード認識 (情報論的学習理論と機械学習)
- 2値パターン拘束と超解像を組み合わせた低解像度QRコード認識 (パターン認識・メディア理解)
- 街並み画像系列と2台の車載カメラの画像系列との照合による自車の走行位置推定(テーマセッション1,移動カメラ画像処理におけるパターン認識とメディア理解)
- 複数映像統合による車載カメラ映像からの移動物体除去(一般セッション,一般物体認識・画像特徴量)
- 複数の画像特徴の統合による道路標識の視認性推定手法--車載カメラ画像への適用と評価 (ITS研究会 交通センシング、通信、情報処理・一般)
- 車載カメラ映像からの学習サンプルの自動収集による標識検出器の高精度化に関する検討 (パターン認識・メディア理解)
- 放送映像における準同一映像区間の出現パターンによる分類(一般セッション4,コンピュータビジョンとパターン認識のための学習理論)
- 放送映像における準同一映像区間の出現パターンによる分類(一般セッション4)
- 複数の画像特徴の統合による道路標識の視認性推定手法--車載カメラ画像への適用と評価 (ITS)
- 注視対象の位置関係を利用した車載視線計測システム自動較正の高度化 (ヒューマン情報処理)
- 注視対象の位置関係を利用した車載視線計測システム自動較正の高度化 (パターン認識・メディア理解)
- フレーム選択型超解像処理を用いた低解像度文字認識手法の提案 (ヒューマン情報処理)
- フレーム選択型超解像処理を用いた低解像度文字認識手法の提案 (パターン認識・メディア理解)
- 2時相の3次元CT像を用いた肝臓がん検出手法に関する検討
- ニュース映像間の時系列意味構造を利用したWikipedia記事のマルチメディア化 (マルチメディア・仮想環境基礎)
- 簡便な気管支鏡カメラキャリブレーション手法に関する検討
- 分岐特徴を利用した気管支鏡誘導システムのための観察部位特定手法の改善(一般セッション8(顔・医用画像),文字・文書の認識・理解)
- 超小型磁気式位置センサを用いたマーカレス気管支鏡位置追跡手法
- 多数の顔画像を用いて顔向きの変換を行うView hallucinationの提案(一般セッション,一般物体認識・画像特徴量)
- 車載カメラを用いた道路標識の視認性推定のための画像特徴の検討(テーマセッション関連,一般物体認識・画像特徴量)
- 料理レシピ中の初心者に理解困難な表現の抽出(生活メディアセッション,生活メディア)
- A-16-1 料理レシピにおける形容表現抽出手法の検討(A-16.マルチメディア・仮想環境基礎,一般セッション)
- D-12-90 2枚の顔画像から正面顔を推定する手法に関する検討(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
- イメージレジストレーションと位置センサを用いた気管支鏡動き推定手法の改善(文書・文字メディアの認識・理解, 一般)
- 早期相・晩期相からのCT値分布推定による肝臓領域抽出手法の開発(領域抽出・モデリング)
- イメージレジストレーションと位置センサを用いた気管支鏡動き推定処理に関する検討(ポスターセッション)
- D-12-49 超解像を用いた低解像度QRコード画像認識の検討(D-12.パターン認識・メディア理解,一般セッション)
- D-12-39 顕著度を考慮した歩行者の視認性定量化手法の検討(D-12.パターン認識・メディア理解,一般セッション)
- 計算機支援医用画像診断のための共通基盤システムの開発
- PLUTO : 医用画像診断支援共通プラットフォーム
- 拡張DPマッチングを用いた視野角の異なるカメラ映像間の時空間対応付けによる自車位置推定
- 過去の車載カメラ映像との道路面差分による不特定障害物の検出 (ヒューマン情報処理)
- 過去の車載カメラ映像との道路面差分による不特定障害物の検出 (パターン認識・メディア理解)
- D-12-110 局所特徴を用いた猫の顔検出に関する予備的検討(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
- D-12-116 入退室解析のための色特徴を用いた人物対応付けに関する検討(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
- D-12-132 車載カメラ映像から多様な標識画像を収集するための逆方向追跡に関する検討(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
- 色変動を考慮した生成型学習法を用いたカスケード型標識検出器(一般セッション4,移動カメラ画像処理におけるパターン認識とメディア理解)
- Twitter における実況書き込み検出手法の検討
- 拡張DPマッチングを用いた視野角の異なるカメラ映像間の時空間対応付けによる自車位置推定(画像認識,コンピュータビジョン)
- D-12-90 生成型学習とカスケード型識別器による交通標識検出(D-12. パターン認識・メディア理解,一般セッション)
- イメージレジストレーションと位置センサを用いた気管支鏡動き推定手法の改善(文書・文字メディアの認識・理解, 一般)
- D-12-34 Wikipediaエントリを用いたニュース字幕中の人物の名寄せ(D-12.パターン認識・メディア理解,一般セッション)
- 前立腺摘出標本画像に基づく仮想針生検システムの評価(一般セッション(3) : 福祉・医療のためのパターン認識・メディア理解)
- 前立腺摘出標本画像に基づく仮想針生検システムの評価(福祉・医療のためのパターン認識・メディア理解)
- 前立腺摘出標本画像に基づく仮想針生検システムの評価(福祉・医療のためのパターン認識・メディア理解)
- 口唇動作特徴と音声特徴の共起性に基づく被写体と話者の不一致検出(萌芽(2):マルチメディア,日常生活におけるメディア技術)
- 料理映像コミュニケーション基盤ソフトウェアIwaCamを用いた遠隔共同料理実験(生活メディア(2):料理,日常生活におけるメディア技術)
- 若手が国際的に活躍するために(仮題)(テーマセッション,パターン認識とメディア理解のフロンティアとグランドチャレンジ)
- 料理レシピをわかりやすくするための理解困難な表現の補足(料理・メディア,デジタルミュージアムとエンタテイメントメディア)
- フレーム選択型超解像処理を用いた低解像度文字認識手法の提案(一般,顔・人物・ジェスチャ・行動)
- フレーム選択型超解像処理を用いた低解像度文字認識手法の提案(一般,顔・人物・ジェスチャ・行動)
- ニュース映像間の時系列意味構造を利用したWikipedia記事のマルチメディア化(料理・メディア,デジタルミュージアムとエンタテイメントメディア)
- ジオタグ付き写真を用いた風景カテゴリマップ作成手法の検討(複合現実感,仮想都市)
- 2値パターン拘束と超解像を組み合わせた低解像度QRコード認識(一般セッション,コンピュータビジョンとパターン認識のための機械学習と最適化,一般)
- 2値パターン拘束と超解像を組み合わせた低解像度QRコード認識(一般セッション,コンピュータビジョンとパターン認識のための機械学習と最適化,一般)
- 画像特徴と音声特徴の統合利用による結婚式映像のシーン分類(萌芽(2):マルチメディア,日常生活におけるメディア技術)
- 複数の画像特徴の統合による道路標識の視認性推定手法 : 車載カメラ画像への適用と評価
- 複数の画像特徴の統合による道路標識の視認性推定手法 : 車載カメラ画像への適用と評価(交通センシング,交通センシング、通信、情報処理、一般)
- 過去の車載カメラ映像との道路面差分による不特定障害物の検出(一般,顔・人物・ジェスチャ・行動)
- 注視対象の位置関係を利用した車載視線計測システム自動較正の高度化(テーマ関連,顔・人物・ジェスチャ・行動)
- 過去の車載カメラ映像との道路面差分による不特定障害物の検出(一般,顔・人物・ジェスチャ・行動)
- 注視対象の位置関係を利用した車載視線計測システム自動較正の高度化(テーマ関連,顔・人物・ジェスチャ・行動)
- D-12-72 動画像を用いた一般物体のカテゴリ識別に関する検討(D-12.パターン認識・メディア理解,一般セッション)
- D-12-20 HOG特徴を用いた映像中の人物の周期的動作検出に関する検討(D-12.パターン認識・メディア理解,一般セッション)
- 車載カメラ映像からの学習サンプルの自動収集による標識検出器の高精度化に関する検討(一般セッション,文字・文書の認識・理解)
- 局所的特徴と大局的特徴の統合に基づく歩行者の視認性定量化 (マルチメディア・仮想環境基礎)
- 局所的特徴と大局的特徴の統合に基づく歩行者の視認性定量化 (パターン認識・メディア理解)
- 6ZN-1 調理動作に注目した料理レシピのマルチメディア化の提案(情報爆発時代におけるマルチメディア処理,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 色変動を考慮した生成型学習法による道路標識検出器の構築
- 口唇動作と音声の共起に着目した被写体と話者の不一致検出--ニュース映像への適用と評価 (マルチメディア・仮想環境基礎)
- 名古屋大学Student Branchの活動を通じて(名古屋大学, 学生ブランチから, 各支部・学生ブランチ学生員の感想)
- 口唇動作と音声の共起に着目した被写体と話者の不一致検出〜ニュース映像への適用と評価〜
- マルチメディア料理レシピ作成のための料理レシピテキストと料理番組映像との対応付け (料理を取り巻く情報メディア技術論文特集)
- マルチメディア料理レシピ作成のための料理レシピテキストと料理番組映像との対応付け(研究速報,マルチメディア情報の理解・変換・蓄積・加工・合成,料理を取り巻く情報メディア技術論文)
- 局所的特徴と大局的特徴の統合に基づく歩行者の視認性定量化(MR/ARの実用化に向けたCV/PR技術の課題と展望)
- 局所的特徴と大局的特徴の統合に基づく歩行者の視認性定量化(MR/ARの実用化に向けたCV/PR技術の課題と展望)
- 口唇動作と音声の共起に着目した被写体と話者の不一致検出 : ニュース映像への適用と評価(萌芽セッション,エンタテインメントのためのメディアとリアリティ)
- コントラスト特徴とアピアランス特徴の統合による道路標識の視認性推定(画像認識,コンピュータビジョン)
- 遡及型追跡に基づく標識画像の自動収集を用いた標識検出器の高精度化(画像・映像処理)
- 時間的冗長性の除去による調理履歴映像の要約 (データ工学)
- ショット内及びショット間の画像・音声特徴に着目したスピーチショット抽出 (画像工学)
- ショット内及びショット間の画像・音声特徴に着目したスピーチショット抽出 (マルチメディア・仮想環境基礎)
- ニュース映像中の同一シーン検出のための領域別照合手法の検討 (画像工学)
- ニュース映像中の同一シーン検出のための領域別照合手法の検討 (マルチメディア・仮想環境基礎)
- 生活支援 マルチメディア料理レシピのための料理テキストと料理番組映像との対応付け
- D-12-93 雨天時の信号機視認性推定のための画像特徴に関する予備的検討(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
- ショット内及びショット間の画像・音声特徴に着目したスピーチショット抽出(映像(1),五感メディアの品質,コミュニケーションデザイン,画像符号化,食メディア,一般)
- ショット内及びショット間の画像・音声特徴に着目したスピーチショット抽出(映像(1),五感メディアの品質,コミュニケーションデザイン,画像符号化,食メディア,一般)
- ニュース映像中の同一シーン検出のための領域別照合手法の検討(映像(1),五感メディアの品質,コミュニケーションデザイン,画像符号化,食メディア,一般)
- ニュース映像中の同一シーン検出のための領域別照合手法の検討(映像(1),五感メディアの品質,コミュニケーションデザイン,画像符号化,食メディア,一般)
- 時間的冗長性の除去による調理履歴映像の要約(食のメディア処理と分析,データ工学と食メディア)