複数人会話シーン分析の研究と今後の展望(オーガナイズドセッション:マルチモーダル情報によるコミュニケーション環境理解,認識,理解,対話,一般)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,我々が取り組んでいる「会話シーン分析」の研究について紹介する.本研究では,複数の人が自由な会話を行う実環境下で「いつ誰が誰に何をどのように話したか」を自動的に認識する技術を構築し,更には結果の統合・分析・可視化・再利用を通して,人の会話を支援する技術の研究を進めている.これまで我々は,会話中の様々な状況/会話内容をリアルタイムで認識するために,会話参加者から発せられる音声や画像のマルチモーダル情報を取得し,これらを精度良く高速に統合・認識する技術の開発に注力してきた.本稿では,会話の認識を実現する映像処理技術,音声処理技術,統合技術について概説し,最近の進展,今後の展望について述べる.
- 一般社団法人電子情報通信学会の論文
- 2012-07-12
著者
-
大塚 和弘
日本電信電話株式会社コミュニケーション科学基礎研究所
-
中谷 智広
NTTコミュニケーション科学基礎研究所
-
中村 篤
Nttコミュニケーション基礎科学研究所
-
大和 淳司
Nttコミュニケーション科学基礎研究所
-
大和 淳司
日本電信電話株式会社第3部門
-
大塚 和弘
NTTコミュニケーション科学基礎研究所
-
大塚 和弘
NTTサイバーソリューション研究所
-
大塚 和弘
NTTヒューマンインタフェース研究所
-
中村 篤
日本電信電話株式会社コミュニケーション科学基礎研究所
-
堀 貴明
Nttコミュニケーション科学基礎研究所
-
Yamato Junji
Ntt R & D Strategy Department Ntt Corporation
-
Yamato Junji
Ntt Communication Science Laboratories Ntt Corp.
-
荒木 章子
NTTコミュニケーション科学基礎研究所
-
大塚 和弘
横浜国立大学工学部電子情報工学科
-
大和 淳司
日本電信電話(株)NTTコミュニケーション科学基礎研究所
関連論文
- メモリベースパーティクルフィルタ : 状態履歴に基づく事前分布予測を用いた頑健な対象追跡(画像映像解析,第12回画像の認識・理解シンポジウム推薦論文,画像の認識・理解論文)
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマセッション2,アンビエント環境知能)
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマ関連セッション2)
- 時変ガウス音源モデルと多チャネル自己回帰観測モデルに基づく最ゆう法による音響信号の残響除去(ブラインド信号処理の技術とその応用論文)
- 音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
- オンライン変分ベイズ学習に基づくモデル比較を用いた音声区間検出(認識)
- 調波構造と音源方向に基づく音源分離法における残響耐性の改善(音響と音声処理,音声強調,ロバスト音声認識)
- 「共感覚者の驚くべき日常」, リチャードE. シトーウィック著, 山下篤子訳, 草思社, 2002年(私のすすめるこの一冊)
- 周波数領域における音声信号の残響除去のためのクロスバンド効果補正(音響信号処理/一般)
- 頭部姿勢の変動に頑健な表情認識技術--表情から人の気持ちを読み取ることを目指して
- パーティクルフィルタとこう配法の組合せによる頭部姿勢と表情の同時推定(メディア処理,画像の認識・理解論文)
- 複数人会話における非言語インタラクション構造の推定--誰が誰にどのように反応しているか?
- 表情認識のための変動輝度テンプレートとその頭部姿勢変動に対する頑健性の一検討(テーマ関連セッション3)
- アンサンブル型最小分類誤り学習法の実装と実験的評価(一般セッション,CV・パターン認識のための学習・最適化)
- 高速メディア探索 (特集 コミュニケーション環境の未来に向けた研究最前線)
- Dirichlet事前分布を用いた音声区間検出の検討
- 音声区間検出技術の最近の研究動向
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマセッション2,アンビエント環境知能)
- 音声信号のブラインド残響除去 : 最新の研究動向(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 音声信号のブラインド残響除去 : 最新の研究動向(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- Dirichlet事前分布を用いた音声区間検出の検討(韻律・VAD,第11回音声言語シンポジウム)
- Dirichlet事前分布を用いた音声区間検出の検討 (音声)
- B-7 乳児音声の基本周波数パタンの分析のための統計的手法(時系列モデル)(2003年度統計関連学会連合大会記録(日本統計学会第71回大会))
- 乳児音声の基本周波数パタン分析のための統計的手法
- CVPR2009報告 (パターン認識・メディア理解)
- 調波構造と音源方向に基づく音源分離法における残響耐性の改善(音響と音声処理,音声強調,ロバスト音声認識)
- 複数人物の対面会話を対象としたマルコフ切替えモデルに基づく会話構造の確率的推論(ヒューマンインタフェース基礎)
- 5T-4 調波GMMとWienerフィルタに基づく音楽音響信号の残響抑圧(音楽信号処理,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 重み付き特徴点照合に基づく高速画像検索(テーマセッション: 時系列・大規模メディア処理, データ工学とメディア理解との融合)
- 重み付き特徴点照合に基づく高速画像検索(テーマセッション: 時系列・大規模メディア処理, データ工学とメディア理解との融合)
- CVPR2009報告
- 音声区間推定と時間周波数領域方向推定の統合による会議音声話者識別(音響信号処理/一般)
- パーティクルフィルタとMCMC : そのコミュニケーション科学への応用(若手研究者のための講演会)
- 会話シーン分析のための音声映像技術 (特集 コミュニケーション科学の融合研究における新潮流)
- 音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
- 音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
- 変動輝度テンプレートによる頭部姿勢と表情の同時推定
- ICMI 2007参加報告
- コミュニケーションを理解する音声・映像技術 (特集 我が国基礎・基盤研究の現状--NTTコミュニケーション科学基礎研究所)
- 表情認識のための変動輝度テンプレートとその頭部姿勢変動に対する頑健性の一検討(テーマ関連セッション3,顔・ジェスチャの認識・理解)
- 表情認識のための変動輝度テンプレートとその頭部姿勢変動に対する頑健性の一検討(テーマ関連セッション3,顔・ジェスチャの認識・理解)
- LH-003 変動輝度テンプレートを用いた頭部姿勢変動に頑健な確率的表情認識手法(画像認識・メディア理解)
- 音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 確率モデルに基づく音声区間検出と雑音抑圧の統合法の評価と考察(認識,理解,対話,一般)
- 複数の音声区間検出法の適応的統合の検討と考察(雑音・VAD,第9回音声言語シンポジウム)
- 動的分散適応に基づく音声強調と音声認識の統合手法の提案(音声認識・識別,第9回音声言語シンポジウム)
- 動的分散適応に基づく音声強調と音声認識の統合手法の提案(音声認識・識別,第9回音声言語シンポジウム)
- 動的分散適応に基づく音声強調と音声認識の統合手法の提案(音声認識・識別,第9回音声言語シンポジウム)
- 複数の音声区間検出法の適応的統合の検討と考察
- 複数の音声区間検出法の適応的統合の検討と考察(雑音・VAD,第9回音声言語シンポジウム)
- 非言語行動の観測に基づく複数人物の会話シーン分析 招待講演
- 音声特徴抽出法SPADEを用いたフロントエンドの耐雑音評価標準コーパスによる評価(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- 音声特徴抽出法SPADEを用いたフロントエンドの耐雑音評価標準コーパスによる評価(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- 音声特徴抽出法SPADEを用いたフロントエンドの耐雑音評価標準コーパスによる評価(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- 姿勢とアピアランスの変化に頑健な対象追跡を実現するアピアランス統合メモリベースパーティクルフィルタ (画像の認識・理解論文特集)
- 対面の複数人対話を撮影対象とした対話参加者の視線に基づく映像切替え方法とその効果(グループウェア)
- 複数人対話シーンの映像編集のための対話参加者の視線に基づく映像切り替え方法とその効果(ヒューマンコミュニケーショングループ(HCG)シンポジウム)
- A-14-6 対話参加者の視線に基づく映像切り替え方法とその効果(A-14. ヒューマンコミュニケーション基礎)
- 視線の機能に着目した映像切り替え規則とその効果 : 人に分かりやすい映像生成を目指して(ヒューマンコミュニケーション及び一般)(ヒューマンコミュニケーショングループ(HCG)大会)
- A-15-9 視線情報に基づく映像切り替え規則とその評価
- 姿勢とアピアランスの変化に頑健な対象追跡を実現するアピアランス統合メモリベースパーティクルフィルタ(画像・映像解析,第13回画像の認識・理解シンポジウム推薦論文,画像の認識・理解論文)
- 手話会話における修復組織の分析(一般,『コミュニケーションの身体を捉える』及び一般)
- 集束ビーム型スピーカアレイを用いた音像の遠近制御について(音響・超音波サブソサイエティ合同研究会)
- 雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討(音響モデル・雑音・分析,第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討(音響モデル・雑音・分析,第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 複数人対話を対象とした表情と視線に基づく共感/反感の推定モデルとその評価--対話者間に生まれる感情をいかに理解するか? (ヒューマンコミュニケーション基礎)
- 雑音低減・耐雑音音声認識のためのスペクトル強調と特徴量補正の統合的アプローチ(オーガナイズドセッション,一般,オーガナイズドセッション(雑音を消せ!騒音下で有効な音声信号処理とは))
- 多視点観測に基づく複数物体の相互オクルージョン解析と逐次状態推定
- 多視点観測に基づく複数物体の相互オクルージョン解析と逐次状態推定
- 複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
- 複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
- 複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 集束ビームを用いて生成した仮想音源の遠近感評価
- 複数人対話を対象とした表情と視線に基づく共感/反感の推定モデルとその評価 : 対話者間に生まれる感情をいかに理解するか?(顔とコミュニケーション)
- 劣決定音源分離のための分離音声のケプストラムスムージング
- 招待講演 複数人会話シーン分析の研究と今後の展望 (音声)
- A-10-9 フルランク空間相関行列モデルに基づく拡散性雑音除去(A-10.応用音響,一般セッション)
- 話者適応と雑音混合モデル推定の同時適用による雑音抑圧(耐雑音処理,第13回音声言語シンポジウム)
- 話者適応と雑音混合モデル推定の同時適用による雑音抑圧(耐雑音処理,第13回音声言語シンポジウム)
- 動くディスプレイで会話が伝わる (特集 情報と人間を結ぶコミュニケーション科学)
- 周波数依存の時間差モデルによる劣決定BSS
- 高即応・高精度な歪み特徴量モデルの推定のための動的静的アプローチ(耐雑音処理,第13回音声言語シンポジウム)
- 高即応・高精度な歪み特徴量モデルの推定のための動的静的アプローチ(耐雑音処理,第13回音声言語シンポジウム)
- ビデオ通信環境における対人印象に関する探索的研究 : 当事者評価と傍観者評価の比較(コミュニケーションの心理及び一般)
- 招待講演 音声・音楽信号の残響除去・制御技術とその応用 : 音声をより聞き取りやすく、音楽をより豊かに (応用音響)
- 手話会話における表現モダリティの継続性(相互作用のマルチモーダル分析)
- ビデオ通信環境における対人印象の規定因に関する探索的実験研究 : 第三者に対する映像呈示と音声呈示の比較(コミュニケーション(技術),「身体,あそび,コミュニケーション」及びコミュニケーション一般)
- MM-Space:頭部運動の物理的補強表現に基づく会話場再構成
- 周波数依存の時間差モデルによる劣決定BSS
- 高即応・高精度な歪み特徴量モデルの推定のための動的静的アプローチ
- 複数人会話シーン分析の研究と今後の展望(オーガナイズドセッション:マルチモーダル情報によるコミュニケーション環境理解,認識,理解,対話,一般)
- 対数スペクトル事前分布を用いたMAPスペクトル推定に基づく劣決定音源分離(ブラインド信号処理,一般)
- 視線一致範囲測定に関する探索的検討 : 疎らな実験データの解析(『場のデザイン』及びコミュニケーション一般)
- アイコンタクト知覚範囲の性差に関する探索的検討 : 社交性不安およびアイコンタクト相手の性別の影響(顔、表情の認知・理解,コミュニケーションの心理及び一般)
- 周波数依存到来時間差推定に基づく劣決定ブラインド音源分離の高速化