多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマセッション2,アンビエント環境知能)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,複数人の対面会話シーンの分析に向けた実時間マルチモーダルシステムを提案する.このシステムでは,基本的な会話の状態を知るために,「誰がいつ話しているか」という話者の同定(話者ダイアリゼーションと呼ぶ),及び,「誰が誰をみているか」という視覚的な注意の焦点の推定を実時間で行うことを目標とする.まず,会話シーンを観測するために,2台の魚眼レンズ付きカメラと3本のマイクからなる全方位マルチモーダルセンサを提案する.次に,全周画像上にて会話参加者の顔の位置と方向の推定を行う.ここではその方法としてSTCTracker(疎テンプレートコンデンセーション追跡法)と呼ばれる方法を採用し,これをGPU(グラフィックスプロセッシングユニット)と呼ばれる並列ハードウェア上にて実行する.また,マイクからの音響信号に対して,音声区間検出と音声到来方向推定を組み合わせた話者ダイアリゼーションを行う.さらに分析の結果を三次元的に可視化する方法も提案する.画像と音響の処理にそれぞれ一台のPCを用い,5人会話に対して平均27.1[frame/sec]にて動作することを確認した.
- 社団法人電子情報通信学会の論文
- 2008-11-20
著者
-
大塚 和弘
日本電信電話株式会社コミュニケーション科学基礎研究所
-
大和 淳司
日本電信電話株式会社コミュニケーション科学基礎研究所
-
荒木 章子
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
石塚 健太郎
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
藤本 雅清
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
大塚 和弘
NTTコミュニケーション科学基礎研究所
-
大塚 和弘
NTTサイバーソリューション研究所
-
大塚 和弘
NTTヒューマンインタフェース研究所
-
大和 淳司
日本電信電話(株)第三部門
-
藤本 雅清
NTTコミュニケーション科学基礎研究所
-
藤本 雅清
日本電信電話(株)nttコミュニケーション科学基礎研究所
-
Yamato Junji
Ntt Communication Science Laboratories Ntt Corp.
-
大塚 和弘
横浜国立大学工学部電子情報工学科
-
FUJIMOTO Masakiyo
the ATR Spoken Language Communication Research Laboratories
-
Fujimoto Masakiyo
Department Of Electronics And Informatics Faculty Of Science And Technology Ryukoku University
-
大塚 和弘
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
大和 淳司
日本電信電話(株)NTTコミュニケーション科学基礎研究所
-
荒木 章子
日本電信電話株式会社 NTTコミュニケーション科学基礎研究所
関連論文
- グラフコストの逐次更新を用いた映像顕著領域の自動抽出(テーマセッション,映像ハンドリング技術とその応用)
- グラフコストの逐次更新を用いた映像顕著領域の自動抽出(テーマセッション,映像ハンドリング技術とその応用)
- グラフコストの逐次更新を用いた映像顕著領域の自動抽出(テーマセッション,映像ハンドリング技術とその応用)
- 視覚的注意の確率的モデル化のための動的マルコフ確率場(テーマセッション2,アンビエント環境知能)
- グラフコストの逐次更新を用いた映像顕著領域の自動抽出(画像映像解析,画像の認識・理解論文)
- メモリベースパーティクルフィルタ : 状態履歴に基づく事前分布予測を用いた頑健な対象追跡(画像映像解析,第12回画像の認識・理解シンポジウム推薦論文,画像の認識・理解論文)
- MCMC-based particle filterを用いた人間の映像注視行動の実時間推定(テーマセッション,映像ハンドリング技術とその応用)
- MCMC-based particle filterを用いた人間の映像注視行動の実時間推定(テーマセッション,映像ハンドリング技術とその応用)
- MCMC-based particle filterを用いた人間の映像注視行動の実時間推定(テーマセッション,映像ハンドリング技術とその応用)
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマセッション2,アンビエント環境知能)