音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,音響情報と映像情報を確率的に統合して用いることにより,多人数会話において「誰がいつ話したか」を推定する話者決定(Speaker Diarization)技術を提案する.音響情報と映像情報は,3本のマイクロホンからなる三角形のマイクロホンアレイと魚眼レンズを装備した2台のカメラから構成される,多人数会話分析のための小規模システムを用いて収録される.このシステムで収録されたデータを元に話者決定を実現するために,提案技術は音声区間検出技術,話者方向推定技術,顔画像追跡技術から得られる発話の存在確率,話者の存在確率,会話参加者の存在確率を統合して用いる.日常的な雑談を用いた実験により,提案手法の話者決定における有効性が確認された.
- 2008-12-02
著者
-
大塚 和弘
日本電信電話株式会社コミュニケーション科学基礎研究所
-
荒木 章子
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
石塚 健太郎
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
藤本 雅清
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
中谷 智広
NTTコミュニケーション科学基礎研究所
-
大塚 和弘
NTTコミュニケーション科学基礎研究所
-
大塚 和弘
NTTサイバーソリューション研究所
-
大塚 和弘
NTTヒューマンインタフェース研究所
-
中谷 智広
日本電信電話(株)基礎研究所 情報科学研究部
-
藤本 雅清
NTTコミュニケーション科学基礎研究所
-
藤本 雅清
日本電信電話(株)nttコミュニケーション科学基礎研究所
-
中谷 智広
日本電信電話(株)nttコミュニケーション科学基礎研究所
-
大塚 和弘
横浜国立大学工学部電子情報工学科
-
FUJIMOTO Masakiyo
the ATR Spoken Language Communication Research Laboratories
-
中谷 智広
Nttコミュニケーション科学基礎研究所日本電信電話株式会社
-
中谷 智広
日本電信電話(株)
-
Fujimoto Masakiyo
Ntt Communication Science Laboratories Ntt Corporation
-
Fujimoto Masakiyo
Department Of Electronics And Informatics Faculty Of Science And Technology Ryukoku University
-
大塚 和弘
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
荒木 章子
日本電信電話株式会社 NTTコミュニケーション科学基礎研究所
関連論文
- メモリベースパーティクルフィルタ : 状態履歴に基づく事前分布予測を用いた頑健な対象追跡(画像映像解析,第12回画像の認識・理解シンポジウム推薦論文,画像の認識・理解論文)
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマセッション2,アンビエント環境知能)
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマ関連セッション2)
- 音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
- 周波数領域ブラインド音源分離のための極座標表示に基づく活性化関数
- 頭部姿勢の変動に頑健な表情認識技術--表情から人の気持ちを読み取ることを目指して
- パーティクルフィルタとこう配法の組合せによる頭部姿勢と表情の同時推定(メディア処理,画像の認識・理解論文)
- 複数人会話における非言語インタラクション構造の推定--誰が誰にどのように反応しているか?
- 表情認識のための変動輝度テンプレートとその頭部姿勢変動に対する頑健性の一検討(テーマ関連セッション3)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパス(公開版Ver.1.0)による評価(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)
- 高速メディア探索 (特集 コミュニケーション環境の未来に向けた研究最前線)
- 招待講演 時間周波数マスクによる実環境でのブラインド音源分離 (応用音響)
- 音声区間検出技術の最近の研究動向
- B-8-59 停電時上り音声通信を実現する光アクセス方式の提案(B-8.通信方式,一般セッション)
- 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 : マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合(テーマセッション2,アンビエント環境知能)
- 乳幼児の母音に対する周波数ピークの縦断的分析
- CVPR2009報告 (パターン認識・メディア理解)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパス(公開版Ver.1.0)による評価(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパス(公開版Ver.1.0)による評価(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)
- 音源分離技術の最新動向
- 幻の「っ」--日本語促音の知覚発達過程
- 複数人物の対面会話を対象としたマルコフ切替えモデルに基づく会話構造の確率的推論(ヒューマンインタフェース基礎)
- ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
- ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
- ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
- 重み付き特徴点照合に基づく高速画像検索(テーマセッション: 時系列・大規模メディア処理, データ工学とメディア理解との融合)
- 重み付き特徴点照合に基づく高速画像検索(テーマセッション: 時系列・大規模メディア処理, データ工学とメディア理解との融合)
- CVPR2009報告
- B-8-11 停電時上り音声通信光アクセス方式の実現技術の検討(B-8.通信方式,一般セッション)
- 音声区間推定と時間周波数領域方向推定の統合による会議音声話者識別(音響信号処理/一般)
- AS-4-5 音声のスパース性を用いたUnderdetermined音源分離(AS-4. ICAを超える,シンポジウムセッション)
- A-10-6 周波数領域ICAにおける初期値の短時間データからの学習(A-10. 応用音響,一般セッション)
- A-10-9 多くの背景音からの主要音源のブラインド抽出(A-10.応用音響,基礎・境界)
- A-10-8 3次元マイクロホンアレイを用いた多音源ブラインド分離(A-10.応用音響,基礎・境界)
- A-10-7 観測ベクトルのクラスタリングによるブラインド音源分離(A-10.応用音響,基礎・境界)
- 畳込み混合のブラインド音源分離(独立成分分析とその応用特集号)
- ブラインド信号処理技術の研究動向(マイクロホンアレー・ブラインド分離・音源位置推定/一般)
- [招待論文]独立成分分析に基づくブラインド音源分離(マイクロホンアレー・ブラインド分離・音源位置推定及び一般)
- 移動音源の低遅延実時間ブラインド分離
- 周波数領域ブラインド音源分離における permutation 問題の頑健な解法
- 周波数領域ICAと時間遅れスペクトル減算による残響下での実時間ブラインド音源分離
- 間隔の異なる複数のマイクペアによるブラインド音源分離
- 非定常スペクトルサブトラクションによる音源分離後の残留雑音除去
- パーティクルフィルタとMCMC : そのコミュニケーション科学への応用(若手研究者のための講演会)
- エントロピーによる重み付けを用いた雑音環境下での基本周波数推定
- 会話シーン分析のための音声映像技術 (特集 コミュニケーション科学の融合研究における新潮流)
- 音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
- 音響情報と映像情報の統合による多人数会話における話者決定技術(音響処理・話者同定,第10回音声言語シンポジウム)
- 変動輝度テンプレートによる頭部姿勢と表情の同時推定
- ICMI 2007参加報告
- コミュニケーションを理解する音声・映像技術 (特集 我が国基礎・基盤研究の現状--NTTコミュニケーション科学基礎研究所)
- 表情認識のための変動輝度テンプレートとその頭部姿勢変動に対する頑健性の一検討(テーマ関連セッション3,顔・ジェスチャの認識・理解)
- 表情認識のための変動輝度テンプレートとその頭部姿勢変動に対する頑健性の一検討(テーマ関連セッション3,顔・ジェスチャの認識・理解)
- NTTにおける男女共同参画への取組み(男女共同参画のページ)
- 「木のいのち 木のこころ」, 西岡常一著, 新潮OH!文庫, 2001年(私のすすめるこの一冊)
- 周波数領域ブラインド音源分離と適応ビームフォーマの等価性について
- 周波数領域ブラインド音源分離と周波数領域適応ビームフォーマの関係について
- 混じりあった声を解く--遠隔発話の認識を目指して (特集論文1 人にやさしい対話型コンピュータ)
- ブラインドな処理が可能な音源分離技術 (特集 コミュニケーションの壁を克服するための音声・音響処理技術)
- LH-003 変動輝度テンプレートを用いた頭部姿勢変動に頑健な確率的表情認識手法(画像認識・メディア理解)
- 音声区間検出と雑音抑圧の統合法を用いた雑音下音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 非言語行動の観測に基づく複数人物の会話シーン分析 招待講演
- 招待講演 複数人会話シーン分析におけるマイクロホンアレイ音声処理 (音声)
- 招待講演 複数人会話シーン分析におけるマイクロホンアレイ音声処理 (信号処理)
- 招待講演 複数人会話シーン分析におけるマイクロホンアレイ音声処理 (応用音響)
- 姿勢とアピアランスの変化に頑健な対象追跡を実現するアピアランス統合メモリベースパーティクルフィルタ (画像の認識・理解論文特集)
- 対面の複数人対話を撮影対象とした対話参加者の視線に基づく映像切替え方法とその効果(グループウェア)
- 複数人対話シーンの映像編集のための対話参加者の視線に基づく映像切り替え方法とその効果(ヒューマンコミュニケーショングループ(HCG)シンポジウム)
- A-14-6 対話参加者の視線に基づく映像切り替え方法とその効果(A-14. ヒューマンコミュニケーション基礎)
- 視線の機能に着目した映像切り替え規則とその効果 : 人に分かりやすい映像生成を目指して(ヒューマンコミュニケーション及び一般)(ヒューマンコミュニケーショングループ(HCG)大会)
- A-15-9 視線情報に基づく映像切り替え規則とその評価
- 姿勢とアピアランスの変化に頑健な対象追跡を実現するアピアランス統合メモリベースパーティクルフィルタ(画像・映像解析,第13回画像の認識・理解シンポジウム推薦論文,画像の認識・理解論文)
- 手話会話における修復組織の分析(一般,『コミュニケーションの身体を捉える』及び一般)
- 複数人対話を対象とした表情と視線に基づく共感/反感の推定モデルとその評価--対話者間に生まれる感情をいかに理解するか? (ヒューマンコミュニケーション基礎)
- 時間周波数マスクによる実環境でのブラインド音源分離
- 帯域に適した分離手法を用いるサブバンド領域ブラインド音源分離
- サブバンド処理によるブラインド音源分離に関する検討
- 多視点観測に基づく複数物体の相互オクルージョン解析と逐次状態推定
- 多視点観測に基づく複数物体の相互オクルージョン解析と逐次状態推定
- 複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
- 複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
- 複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
- 複数人対話を対象とした表情と視線に基づく共感/反感の推定モデルとその評価 : 対話者間に生まれる感情をいかに理解するか?(顔とコミュニケーション)
- 劣決定音源分離のための分離音声のケプストラムスムージング
- 招待講演 複数人会話シーン分析の研究と今後の展望 (音声)
- A-10-9 フルランク空間相関行列モデルに基づく拡散性雑音除去(A-10.応用音響,一般セッション)
- 動くディスプレイで会話が伝わる (特集 情報と人間を結ぶコミュニケーション科学)
- 周波数依存の時間差モデルによる劣決定BSS
- ビデオ通信環境における対人印象に関する探索的研究 : 当事者評価と傍観者評価の比較(コミュニケーションの心理及び一般)
- 手話会話における表現モダリティの継続性(相互作用のマルチモーダル分析)
- ビデオ通信環境における対人印象の規定因に関する探索的実験研究 : 第三者に対する映像呈示と音声呈示の比較(コミュニケーション(技術),「身体,あそび,コミュニケーション」及びコミュニケーション一般)
- MM-Space:頭部運動の物理的補強表現に基づく会話場再構成
- 複数人会話シーン分析の研究と今後の展望(オーガナイズドセッション:マルチモーダル情報によるコミュニケーション環境理解,認識,理解,対話,一般)
- 視線一致範囲測定に関する探索的検討 : 疎らな実験データの解析(『場のデザイン』及びコミュニケーション一般)
- アイコンタクト知覚範囲の性差に関する探索的検討 : 社交性不安およびアイコンタクト相手の性別の影響(顔、表情の認知・理解,コミュニケーションの心理及び一般)
- 時変混合重みに基づくパーミュテーション問題のないクラスタリングベース音源分離(音響信号処理,電気音響,信号処理,音声一般)
- 時変混合重みに基づくパーミュテーション問題のないクラスタリングベース音源分離(音響信号処理,電気音響,信号処理,音声一般)