確率的パラメータを持つ方策関数に対する方策勾配法
スポンサーリンク
概要
- 論文の詳細を見る
強化学習の一種である方策勾配法は,方策関数のパラメータ,すなわち方策パラメータを,方策勾配に基づき更新する手法である.本報告では,方策パラメータを生成する確率モデルに対する学習法を提案する.この方法は,アンサンブル学習の一種となっており,方策パラメータの分布の広がりを変えることで探索搾取問題を扱うことができる.提案手法を単純な力学系の制御問題に適用し,その動作を調べた.
- 社団法人電子情報通信学会の論文
- 2008-03-05
著者
関連論文
- 2ZL-4 アンドロイドの陪席によるコミュニケーションへの心理的影響(情報爆発時代におけるコミュニケーション手法,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 2ZL-3 アンドロイドの自然な待機動作のための視線制御(情報爆発時代におけるコミュニケーション手法,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- CPG-Actor-Critic法によるミミズ型ロボットの推進運動の獲得
- 内部状態の報酬に基づいた推定を行う強化学習法
- 生体ゆらぎを模倣したロボット制御
- 神経振動子ネットワークを用いたリズム運動に対する強化学習法(バイオサイバネティックス,ニューロコンピューティング)
- 神経振動子ネットワークを用いた強化学習法による歩行運動の獲得
- 確率的パラメータを持つ方策関数に対する方策勾配法
- サンプル再利用型強化学習による準受動2足歩行ロボットの学習
- 部分観測環境での意思決定に必要な特徴空間の抽出(「機械学習によるバイオデータマインニング」及び「一般」)
- 重点サンプリングに基づくNatural Actor-Critic法による効果的なサンプルの再利用(人工知能,認知科学)
- モデル誤差を考慮した強化学習法による実ロボットの適応制御
- 方策勾配法による準受動歩行制御の学習
- 方策オフ型Natural Actor-Critic法
- 方策こう配法に基づく強化学習法と二足歩行運動制御への応用(バイオサイバネティックス, ニューロコンピューティング)
- 複数制御器の切換学習法による実アクロボットの制御(人工知能)
- 自然方策勾配法に基づくオフポリシー型強化学習法
- 二足歩行運動に対する方策勾配法に基づいた強化学習法
- オンラインベイズ法によるヒトの指さし運動の解析
- 1P1-G15 アンドロイドの自然な待機動作のためのvisual saliencyモデルを用いた視線制御(コミュニケーション・ロボット)
- 2A2-E10 生体ゆらぎに基づくヒューマノイドロボットの周期動作の生成
- 2A2-E09 人間上肢型ロボティックアームによるアトラクタ選択モデルを用いた円運動の生成
- 1A1-A19 生体ゆらぎに基づくアトラクタ選択モデルを用いた複数ロボット協調制御手法の提案
- 2P2-H22 細胞分化メカニズムを用いた複数ロボットの協調制御 : 掃除タスクシミュレーションにおける役割分化(バイオミメティクス・ロボティクス)
- 2P2-H19 人間の上腕を模したロボティックアームの開発(バイオミメティクス・ロボティクス)
- 2A1-F13 広域監視のための複数エージェントの経路計画
- 2P1-B24 長期予測に基づいた人物追跡のための複数エージェントの経路計画法
- 2A1-A21 アトラクタ選択モデルを用いた人間上肢型ロボットの動作生成
- 1P1-C16 陪席者として人間-人間コミュニケーションへ参加するアンドロイドの動作生成
- 室内照明制御のための生体ゆらぎ理論を用いた遮蔽度推定
- Gaussian process regressionを用いた確率的方策に対する方策勾配法(第15回情報論的学習理論ワークショップ)
- ハッシュ関数を用いたGaussian Process Regressionの高速化(第15回情報論的学習理論ワークショップ)
- ハッシュ関数を用いたガウス過程回帰の高速化(ディジタル信号処理)
- κ近傍法に基づく予測を用いた人物追跡のための複数エージェントの経路計画法