音声と画像シーンを用いた潜在意味解析に基づくタスク推定
スポンサーリンク
概要
- 論文の詳細を見る
In this paper, we propose a task estimation method based on multiple subspaces extracted from multi-modal information of image objects in visual scenes and spoken words in dialog appeared in the same task. The multiple subspaces are obtained by using latent semantic analysis (LSA). In the proposed method, a task vector composed of spoken words and the frequencies of image-object appearances are extracted first, and then similarities among the input task vector and reference sub-spaces of different tasks are compared. Experiments are conducted on the identification of game tasks. Experimental results show that the proposed method with multi-modal information outperforms the method in which only single modality of image or spoken dialog is applied. Moreover, the proposed method achieved accurate performance even if less spoken dialog is applied.
- 2012-09-01
著者
-
桂田 浩一
豊橋技術科学大学大学院工学研究科
-
桂田 浩一
豊橋技科大
-
木村 優志
豊橋技術科学大学
-
新田 恒雄
豊橋技術科学大学大学院工学研究科
-
桂田 浩一
豊橋技術科学大学
-
新田 恒雄
豊橋技術科学大学
-
木村 優志
豊橋技術科学大学大学院工学研究科
-
木村 優志
豊橋技術科学大学工学研究科
-
入部 百合絵
豊橋技術科学大学
-
澤田 心大
豊橋技術科学大学大学院工学研究科
-
新田 恒雄
豊橋技術科学大学大学院工学研究科:早稲田大学グリーン・コンピューティング・システム研究機構
関連論文
- マルチモーダル情報処理の研究動向(マルチモーダル)
- 幼児エージェントにおけるバイアスの形成と言語の構造化
- Suffix Arrayを用いた音声文書の高速検索
- ウェブブラウザ上で動作可能なマルチモーダル対話システム(プラットフォーム)
- 音声対話技術コンソーシアム(ISTC)の活動成果報告(SIG-SLP内組織の活動報告)
- 2ZJ-6 動画視聴時の注目点を考慮した動画推薦方法の提案(人間行動,障害等支援,学生セッション,コンピュータと人間社会)
- 3ZA-7 デフォルメ地図の地上座標系へのマッピングを利用した現地情報提供システム(ITSネットワーク・地図情報,学生セッション,ネットワーク)
- DS-2-5 共有信念に基づく発話場面の推定(DS-2. 共生コンピューティング,シンポジウムセッション)
- DS-1-11 Cellプロセッサを用いた音声検索エンジンの高速化(DS-1. COMP-NHC学生シンポジウム,シンポジウムセッション)
- 音声対話システムと質問応答システムの連携による質問応答対話の実現と対話シナリオの検討
- 生徒の検索情報を利用した講義の重要語抽出
- 幼児の学習バイアスを利用したエージェントによる語意学習の効率化
- 語彙学習エージェントにおけるバイアスの自律調整について
- 因果性に基づく信念形成モデルとN本腕バンディット問題への適用
- マルチモーダル対話システムのための階層的アーキテクチャの提案
- 重要語句に対する関連スライド群抽出法の検討(オープンソースソフトウェアの教育利用/一般)
- 講義情報を用いた自主学習支援システムの構築
- エージェントによる語意学習効率化のための対話戦略獲得
- Agent-Agent 対話により獲得した戦略に対する人間-Agent 対話からの実験評価
- 語意自動獲得における学習バイアスの効果
- 調音運動HMM音声合成における調音特徴--声道パラメータ変換と音源の改良 (音声)
- 調音運動HMM音声合成における調音特徴--声道パラメータ変換と音源の改良 (言語理解とコミュニケーション)
- 調音運動HMM音声合成における調音特徴-声道パラメータ変換と音源の改良
- 階層型アーキテクチャに基づいたWebベースMMIシステムの開発 (音声)
- 静的・動的情報を利用したMMIシステムの設計と実装(検索・対話)
- 受講情報を利用した学習支援機能付き講義再現システムの開発(遠隔教育/一般)
- 音素弁別特徴間距離に基づくキーワード検出における音節単位サブワードモデルの検討(ポスターセッション)(第5回音声言語シンポジウム)
- 音素弁別特徴間距離に基づくキーワード検出における音節単位サブワードモデルの検討(第5回音声言語シンポジウム : ポスターセッション)
- 音素弁別特徴間距離に基づくキーワード検出における音節単位サブワードモデルの検討(第5回音声言語シンポジウム : ポスターセッション)
- 階層型アーキテクチャに基づいたWebベースMMIシステムの開発(一般セッション,クロスモーダル)
- 階層型アーキテクチャに基づいたWebベースMMIシステムの開発(一般セッション,クロスモーダル)
- 階層型アーキテクチャに基づいたWebベースMMIシステムの開発(一般セッション,クロスモーダル)
- 階層型アーキテクチャに基づいたWebベースMMIシステムの開発(一般セッション,クロスモーダル)
- マルチモーダル対話作成支援ツールGalatea-IBの機能強化
- 例外に着目した知識ベースの変換メカニズムの形式化
- 大規模音声ドキュメントを対象とした高速キーワード検索システムとその評価
- 1U-10 調音特徴に基づく音素単位での英語発音誤り検出と発音評価(音声分析・強調,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 文書分類システムの分類誤りに着目した分類ルール修正法
- AAMを利用した表情成分抽出に基づく表情模倣システム(テーマ関連,顔・人物・ジェスチャ・行動)
- AAMを利用した表情成分抽出に基づく表情模倣システム(テーマ関連,顔・人物・ジェスチャ・行動)
- 英語発音学習のための調音特徴抽出と発音評価
- 階層的MMIアーキテクチャに基づくプラットフォーム実装方法の検討
- 調音運動HMMに基づくワンモデル音声認識合成
- Suffix Arrayを用いた高速なキーワード検索
- 5U-2 柔軟なモジュール切替が可能なWebベースMMIシステムの開発(音声インタフェース・システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 4Y-5 AAMを利用した表情の模倣(顔・人物画像処理(2),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 形容詞/名詞の分化と典型的事例の自己組織化に関する構成論的モデル
- 幼児エージェントにおけるバイアスの形成と言語の構造化(セッション4)
- 講義再現システムにおけるスライド重要度抽出
- SD-2-3 非言語情報を用いた講義スライド重要度抽出
- 講義再現システムにおけるスライドへの重要度自動付与法とその評価 (先端メディアの教育利用と教材データの格納・再利用/一般
- E-039 MMI6階層モデルに準拠したWebベースMMIシステムの開発(自然言語・音声・音楽,一般論文)
- Online-EMによる語意学習機構と学習バイアスの適用(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- Online-EMによる語意学習機構と学習バイアスの適用(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- Online-EMによる語意学習機構と学習バイアスの適用(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- 人間とロボットが混在する対話空間の構築を目指して : 共通概念獲得方法の検討(テーマセッション(2), ロボットとの相互作用のための言語処理・パターン認識・メディア理解)
- 人間とロボットが混在する対話空間の構築を目指して : 共通概念獲得方法の検討(テーマセッション(2), ロボットとの相互作用のための言語処理・パターン認識・メディア理解)
- 生得的学習バイアスを適用したInfant Agentによる概念獲得([特別セッション]音声言語獲得・学習技術(1))
- 幼児エージェントによるバイアスの形成と言語獲得過程におけるその効果(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- 幼児エージェントによるバイアスの形成と言語獲得過程におけるその効果(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- 幼児エージェントによるバイアスの形成と言語獲得過程におけるその効果(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- 異なる端末環境から利用可能なMMIアプリケーション開発における記述負担の軽減(対話(1))(第6回音声言語シンポジウム)
- 意味属性を利用したクラスN-gram言語モデルの評価(言語モデル)(第6回音声言語シンポジウム)
- 異なる端末環境から利用可能なMMIアプリケーション開発における記述負担の軽減(対話(1))(第6回音声言語シンポジウム)
- 異なる端末環境から利用可能なMMIアプリケーション開発における記述負担の軽減(対話(1))(第6回音声言語シンポジウム)
- 意味属性を利用したクラスN-gram言語モデルの評価(言語モデル)(第6回音声言語シンポジウム)
- 意味属性を利用したクラスN-gram言語モデルの評価(言語モデル)(第6回音声言語シンポジウム)
- G-001 同一アプリケーションを異なる端末から利用する際のMMI記述における再利用性の向上(G.音声・音楽)
- E-004 Webページに対するRDFメタデータ付与支援ツール開発(E.自然言語・文書・ゲーム)
- MMIシステムにおける意味解釈と統合に関する記述方法の提案
- 音素弁別特徴間距離に基づくキーワード検出における音節単位サブワードモデルの検討
- MMI記述言語XISLの提案(マルチモーダル)(「インタラクション:理論,技術,応用,評価」)
- マルチモーダル対話作成支援ツール Galatea-IB の機能強化
- 多様な端末からのアクセスが可能なOLSシステムの実装
- MMI記述言語XISLによるオンラインショッピングシステムの開発
- 多様な端末からのアクセスを可能にするMMIアーキテクチャ
- 多様な端末からのアクセスを可能にするMMIアーキテクチャ
- 音声対話記述言語VoiceXMLとMMI記述言語XISLの比較
- マルチモーダル対話記述言語(XISL)の検討
- Infant Agents 間の対話による概念獲得と対話戦略が与える影響
- Infant Agents 間の対話による概念獲得と対話戦略が与える影響
- Infant Agents 間の対話による概念獲得と対話戦略が与える影響
- G-12 複数エージェント間の相互学習に与える対話戦略の影響(人工知能(エージェント),G.人工知能)
- D-15-40 講義再現システムにおけるスライドへの重要度自動付与
- 階層型アーキテクチャに基づいた Web ベースMMIシステムの開発
- Winkler,I.,Denham,S.L.and Nelken,I.:Modeling the auditory scene:predictive regularity representations and perceptual objects(聴覚情景のモデル化:予測規則性の表現と知覚オブジェクト),Trends in Cognitive Sciences,Vol.13,No.12,pp.532-540(2009)
- 調音運動に基づくワンモデル音声認識合成方式(合成,認識,理解,対話,一般)
- マルチモーダル対話システム基盤技術とその応用 (特集人間を理解するためのICT技術 : 人間を対象としたセンシング・情報処理からその応用まで) -- (人間の活動を支援する応用技術)
- 調音特徴抽出に基づくIPAチャートへの英語発音リアルタイム表示
- 調音特徴抽出に基づくIPAチャートへの英語発音リアルタイム表示 (音声)
- Suffix Arrayを用いた高速STDにおけるキーワード分割に関する理論的検討 (言語理解とコミュニケーション)
- Suffix Arrayを用いた高速STDにおけるキーワード分割に関する理論的検討 (音声)
- 4-3 マルチモーダル対話システム基盤技術とその応用(4.人間の活動を支援する応用技術,人間を理解するためのICT技術-人間を対象としたセンシング・情報処理からその応用まで-)
- Suffix Arrayを用いた高速STDにおけるキーワード分割に関する理論的検討(ポスターセッション,第13回音声言語シンポジウム)
- Suffix Arrayを用いた高速STDにおけるキーワード分割に関する理論的検討(ポスターセッション,第13回音声言語シンポジウム)
- 発音訓練のための調音特徴に基づくIPA母音図へのリアルタイム表示(ポスターセッション,第13回音声言語シンポジウム)
- 発音訓練のための調音特徴に基づくIPA母音図へのリアルタイム表示(ポスターセッション,第13回音声言語シンポジウム)
- 最適な状態構造における調音運動に基づいた高精度な音素認識(ポスターセッション,第13回音声言語シンポジウム)
- 最適な状態構造における調音運動に基づいた高精度な音素認識(ポスターセッション,第13回音声言語シンポジウム)
- Active Appearance Modelsを用いた表情合成におけるパラメータ探索法の改良(一般セッション,時系列パターン認識)