人対会話エージェントとの多人数会話における頭部方向と音声情報を用いた受話者推定機構
スポンサーリンク
概要
- 論文の詳細を見る
In multiparty human-agent interaction, the agent should be able to properly respond to a user by determining whether an utterance is addressed to the agent or to another user. This study proposes a mechanism for identifying the addressee by using nonverbal cues including the acoustic information from the user's speech and head orientation. First, we conduct a WOZ experiment to collect human-human-agent triadic conversations, in which the agent plays a role of an information provider. Then, we analyze whether the acoustic features and head orientations are correlated with addressee-hood. We found that speech features were different depending on whom the person talks to. When people talked to the agent, they spoke with a higher tone of voice and also spoke more loudly and slowly. In addition, the subjects looked at the agent 93.2% of the time while they were talking to the agent. On the other hand, the speaker looked at his/her partner only 33.5% of the time while they were talking to one another. These results suggest that people frequently look at the addressee, but it is difficult to estimate the addressee solely based on the head direction. Based on these analyses, we propose addressee estimation models by integrating speech and head direction information using SVM, and the accuracy of the best performance model is over 80%. Then, we implement an addressee identification mechanism by integrating speech processing and face tracking. We also conduct an evaluation experiment for our addressee identification mechanism, and report that the accuracy remains over 80% if invalid speech input can be eliminated.
著者
関連論文
- 直接的な手書き入力による画面隠れを軽減させる半透明提示手法
- 直接的な手書き入力による画面隠れを軽減させる半透明提示手法
- 直接的な手書き入力による画面隠れを軽減させる半透明提示手法
- 欧米におけるHCI教育の動向
- 行動計測技術を利用したHAIの設計,実装,評価(深化するHAI:ヒューマンエージェントインタラクション)
- 4Q-6 会話エージェントにおけるマルチモーダルコミュニケーションのための対話管理プラットフォームの構築(音声対話・音声要約,学生セッション,人工知能と認知科学)
- ユーザの注視行動に基づく会話参加態度の推定----会話エージェントにおける適応的会話制御に向けて
- 5V-2 情報提供エージェントとの多人数対話における対話制御方式(人工知能一般(4),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 2ZN-5 複数ユーザ対会話エージェントとの多人数インタラクションの収集と分析(情報爆発時代における対話インタラクション,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 5V-9 日本語文章へのジェスチャー自動付与による仮想世界アバターの実現(人工知能一般(4),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- contextHashtagの提案とそれを用いたTwitterユーザ向けイベント推薦システム
- 視線と頭部動作に基づくユーザの会話参加態度の推定
- 人対エージェントの会話における頭部動作情報に基づくユーザ態度の推定(「コミュニケーションと気づき」及び一般)
- メタバースにおける言語・空間情報に基づくアバタへの道案内ジェスチャの自動付与(サイバースペースとVR)
- 映像コミュニケーションにおける窓越しインタフェースMoPaCoによるテレプレゼンスの増強(コミュニケーション支援,ヒューマンコミュニケーション〜人にやさしい情報通信社会を実現するコミュニケーション技術〜論文)
- メタバースにおける言語・空間情報に基づくアバタへの道案内ジェスチャの自動付与
- 人対会話エージェントとの多人数会話における頭部方向と音声情報を用いた受話者推定機構
- D-026 正規化時系列のクラスタリングによるオンラインオークション落札価格予測(クラスタリング,D分野:データベース)
- L-033 ネットワーク動的構成による高セキュリティLANの試作(セキュリティ実装,L分野:ネットワーク・セキュリティ)
- J-013 選択的注意と分割的注意の定量評価のための実験手法(動作・知覚・注意,J分野:ヒューマンコミュニケーション&インタラクション)
- RJ-001 窓越しインタフェースMoPaCoによる指示作業への効果検証(ヒューマンコミュニケーション(1),J分野:ヒューマンコミュニケーション&インタラクション)
- K-043 傾聴者支援のための高齢者の音声特性による話題の評価(福祉情報工学(2),K分野:教育工学・福祉工学・マルチメディア応用)
- D-023 動画像自動分類への大規模分散オンライン機械学習フレームワークJubatus の適用
- J-026 ヒューマノイドロボットのジェスチャに対する人の注視行動の分析(HCS(1),J分野:ヒューマンコミュニケーション&インタラクション)
- 協調学習における非言語情報に基づく学習態度の可視化
- 非言語情報に基づく受話者推定機構を用いた多人数会話システム
- 窓越しインタフェースMoPaCoによる指示作業への効果検証(FIT2012推薦論文,ヒューマンコンピュータインタラクション)
- 傾聴時における対話者の気分と態度の関係の分析 : 高齢者を対象とした傾聴エージェントに向けて(ライフサイクル(2):青少年・高齢者の適応支援,コミュニケーションの心理及び一般)
- J-023 会話エージェントによる認知症患者への語りかけの効果(HCS(1),J分野:ヒューマンコミュニケーション&インタラクション)
- 聴き手の非言語行動と印象評価の考察 : 高齢者を対象とした傾聴エージェントに向けて(エージェント,コミュニティとコミュニケーション及び一般)
- Popular度を考慮した移動軌跡分布からのMPRと時間帯の検出(実世界情報・データベース,ビッグデータを対象とした管理・情報検索・知識獲得及び一般)
- 映像コミュニケーションにおける窓越しインタフェースMoPaCoによるテレプレゼンスの増強
- O-045 脳波によるヒューマンエラーの予兆となる注意力の低下の検知(O分野:情報システム,一般論文)