Gaussian process regressionを用いた確率的方策に対する方策勾配法(第15回情報論的学習理論ワークショップ)
スポンサーリンク
概要
- 論文の詳細を見る
近年,ガウス過程回帰を用いて価値関数の学習を行う強化学習法が提案されてきた[1].ガウス過程を用いたベイズ推論により価値関数の推定を行うため,価値関数の推定値だけでなく,そのばらつきも計算可能であるが,ばらつきを直接的に学習に利用する枠組みとはなっていない.本研究では,ガウス過程回帰を用いた確率的方策に対する方策勾配法を導出する.本手法においては行動選択のばらつきが学習により変化することから,ばらつきの学習により探索搾取問題を扱うことが可能であると期待できる.提案手法を倒立振子の振り上げ課題に適用し,適切な方策を獲得可能であることを示す.
- 2012-10-31
著者
関連論文
- 高周波数マーカとカーネル回帰による物体の姿勢推定 (特集 ビジョン技術によるイノベーション)
- 高出力で柔軟なリニアアクチュエータ (特集 ロボット技術における磁気アクチュエータ)
- 人間型ロボットの研究
- 遠隔操作型アンドロイドとの同調感により誘起される身体感覚の延長(コミュニケーション支援(1),HCGシンポジウム)
- ヒューマノイドロボットアバターシステムの提案(オフィスインフォメーションシステム,グループウェア及び一般)
- 環境設置型センサとウェアラブルセンサを統合した個人同定 (マルチメディア・仮想環境基礎)
- 環境設置型センサとウェアラブルセンサを統合した個人同定 (音声)
- 環境設置型センサとウェアラブルセンサを統合した個人同定 (パターン認識・メディア理解)
- 環境設置型センサとウェアラブルセンサを統合した個人同定 (コミュニケーションクオリティ)
- 骨伝導マイクとICレコーダを用いた記憶補助装置の構築(セッション2:かえりみるインタフェース(2),かえりみるインタフェース,および一般)
- 骨伝導マイクとICレコーダを用いた記憶補助装置の構築
- オフィス環境での無線LANを利用した屋内プレゼンスシステム(ユビキタス・モバイル,システム開発論文)
- 複数のカメラを用いたオクルージョンロバストな実時間複数人間追跡(テーマセッション(1),人の検出・計測・認識)
- 10. 人として人とつながるロボット研究(ネットワークロボット最前線)
- 2ZL-4 アンドロイドの陪席によるコミュニケーションへの心理的影響(情報爆発時代におけるコミュニケーション手法,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 2ZL-3 アンドロイドの自然な待機動作のための視線制御(情報爆発時代におけるコミュニケーション手法,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- ロボットの見かけや動きが目が合う条件に及ぼす影響(コミュニケーション支援(1),HCGシンポジウム)
- 高出力で柔軟なリニアアクチュエータ
- 実世界情報基盤に向けた人間活動情報の獲得と利用
- CDT-1-7 ロボットのための感覚システム(CDT-1.「五感」情報処理:アプリケーションの展望,チュートリアルセッション,ソサイエティ企画)
- CDT-1-7 ロボットのための感覚システム(CDT-1.「五感」情報処理 : アプリケーションの展望,チュートリアルセッション,ソサイエティ企画)
- ロボット搭載カメラの移動がテレプレゼンスに与える影響
- 行動素の混合分布に基づく行動認識と例外行動の検出
- 高周波数マーカとカーネル回帰による物体の姿勢推定
- センサネットワークと一体化したアンドロイドシステムの開発
- ロボット操作者が感じる社会的テレプレゼンスの分析(新たなるコミュニケーションへの挑戦)
- ヒューマノイドロボットアバターシステムの提案(オフィスインフォメーションシステム,グループウェア及び一般)
- 能動絞りカメラ
- 生体ゆらぎを模倣したロボット制御
- 全天球画像と複合センシングによる自己位置識別
- ハッシュ関数を用いた行動認識
- 二次元フーリエ変換を利用した物体の姿勢推定
- 遠隔操作によるアンドロイドへの身体感覚の転移(ヒューマン情報処理,ヒューマンコミュニケーション〜人間中心の情報環境構築のための要素技術〜論文)
- 柔軟性と伸縮性のある静電気式触覚センサの原理と特性
- 環境設置型センサとウェアラブルセンサを統合した個人同定(テーマセッション,クロスモーダル)
- 環境設置型センサとウェアラブルセンサを統合した個人同定(テーマセッション,クロスモーダル)
- 環境設置型センサとウェアラブルセンサを統合した個人同定(テーマセッション,クロスモーダル)
- 環境設置型センサとウェアラブルセンサを統合した個人同定(テーマセッション,クロスモーダル)
- ロボットと人間の対人および社会関係(テーマセッション(2), ロボットとの相互作用のための言語処理・パターン認識・メディア理解)
- アンドロイドサイエンス
- 全天球画像と複合センシングによる自己位置識別
- 実データの分類による人とロボットの触覚インタラクションの典型パターン抽出(ヒューマンモデル,人とエージェントのインタラクション論文)
- ハッシュ関数を用いた行動認識
- 複数仮説化周期歩行モデルに基づく床センサネットワークを用いた実時間複数人物追跡(画像認識,コンピュータビジョン)
- ユビキタス環境での状態系列モデルを用いたユーザ支援システム(ユビキタスコンピューティングと情報家電)(ユビキタス環境のモバイル通信システムとITS)
- K-31 日常生活空間におけるユーザ支援システムとトラッキングによるアプリケーションの実現(マルチメディア・仮想環境基礎1,K.ヒューマンコミュニケーション&インタラクション)
- ユビキタスセンサとのインタラクションに基づくユーザ支援システム
- ユビキタスセンサとのインタラクションに基づくユーザ支援システム
- 実世界情報基盤に向けた人間活動情報の獲得と利用
- アンドロイドによるトータルチューリングテストの可能性(チューリングテストを再び考える)
- RFIDタグを用いたコミュニケーションロボットによる科学館での展示案内
- ロボットの能動的コミュニケーションのためのMCMCに基づいた異種センサ統合による人間追跡
- 確率的パラメータを持つ方策関数に対する方策勾配法
- 座談会:チューリングテストを再び考える(チューリングテストを再び考える)
- 相互排他性原理に基づくマルチモーダル共同注意
- 相互情報量最大化に基づく信号情報源の移動軌跡の推定(マルチメディア処理)
- 全身分布触覚における触覚特徴の局所性に注目した人間-ロボット間インタラクションの識別
- 人とコミュニケーションロボットの直示的な会話の実現
- 事例データに基づく人物領域の抽出
- サンプル再利用型強化学習による準受動2足歩行ロボットの学習
- 日常空間で対話できるコミュニケーションロボットRobovie-IV(テーマセッション, ユビキタスメディアの将来展望)
- 日常空間で対話できるコミュニケーションロボットRobovie-IV(テーマセッション, ユビキタスメディアの将来展望)
- Sampled-Volume-based Data Association Filterによる遮へいロバストな実時間複数人物追跡(画像認識,コンピュータビジョン)
- 人物追跡アルゴリズムを組み込んだ照度センサネットワーク(一般セッション(1),ユビキタス情報社会と複合現実感のためのパターン認識・メディア理解)
- 複数のカメラを用いたオクルージョンロバストな実時間複数人間追跡(テーマセッション(1),人の検出・計測・認識)
- 複数のカメラを用いたオクルージョンロバストな実時間複数人間追跡
- マルコフ連鎖モンテカルロ法に基づく床センサを用いた人間追跡(ITS・監視・セキュリティのためのパターン認識・メディア理解)
- 5C-2 細胞分化メカニズムを利用した役割分化ロボットシステムの研究(複雑系,一般セッション,人工知能と認知科学)
- 倒立振子移動機構を持つ人型ロボットの反応動作の違いが人に与える印象の変化
- 物理的な人間-ロボット間インタラクションを利用した柔軟関節ヒューマノイドロボットの運動学習
- ヒューマノイドロボットの揺れ動作が人の動作と印象へ与える影響
- 床センサと加速度センサの統計的統合による複数人間同定追跡
- 床センサと加速度センサの統合による複数人間追跡
- 環境設置型センサとウェアラブルセンサを統合した個人同定
- 7.ロボットのための感覚システム(「五感」情報処理-生理的基盤とハードウェアに立脚したアプリケーションの展望-)
- 全身触覚を持つロボットによる人間の位置・姿勢の推定
- 1P1-G16 自然な動作生成のためのアンドロイドと人間の動作比較(コミュニケーション・ロボット)
- 1P1-G15 アンドロイドの自然な待機動作のためのvisual saliencyモデルを用いた視線制御(コミュニケーション・ロボット)
- 2A2-E10 生体ゆらぎに基づくヒューマノイドロボットの周期動作の生成
- 2P1-D11 アンドロイドの陪席によるコミュニケーションへの心理的影響(ロボット・セラピー)
- 2A2-E09 人間上肢型ロボティックアームによるアトラクタ選択モデルを用いた円運動の生成
- 2P2-H20 ゆらぎを用いるバクテリアの運動を規範とした1自由度ロボット(バイオミメティクス・ロボティクス)
- 1A1-A19 生体ゆらぎに基づくアトラクタ選択モデルを用いた複数ロボット協調制御手法の提案
- 2P2-H22 細胞分化メカニズムを用いた複数ロボットの協調制御 : 掃除タスクシミュレーションにおける役割分化(バイオミメティクス・ロボティクス)
- 2P2-H19 人間の上腕を模したロボティックアームの開発(バイオミメティクス・ロボティクス)
- 2A1-F13 広域監視のための複数エージェントの経路計画
- 2P2-H23 アトラクタ選択に基づく生体模倣型ナビゲーション(バイオミメティクス・ロボティクス)
- 人の移動の表現方法:ズームカメラと移動ディスプレイによる社会的テレプレゼンスの向上
- 事例データに基づく移動物体の抽出(画像・映像解析,画像の認識・理解論文)
- 事例データに基づく移動物体の抽出
- 人型コミュニケーションロボットのための首傾げ生成手法の提案および評価
- 室内照明制御のための生体ゆらぎ理論を用いた遮蔽度推定
- Gaussian process regressionを用いた確率的方策に対する方策勾配法(第15回情報論的学習理論ワークショップ)
- 人工筋のためのリニアバーニアモータ
- 人はアンドロイドとどのような相互行為を行いうるか:アンドロイド演劇『三人姉妹』のマルチモーダル分析
- ハッシュ関数を用いたGaussian Process Regressionの高速化(第15回情報論的学習理論ワークショップ)
- 腱振動刺激による運動錯覚を用いた動作教示法の検討
- テレノイドによる高齢者支援 : 特別養護老人ホームへの導入の経過報告
- ハッシュ関数を用いたガウス過程回帰の高速化(ディジタル信号処理)
- κ近傍法に基づく予測を用いた人物追跡のための複数エージェントの経路計画法