方策こう配法に基づく強化学習法と二足歩行運動制御への応用(バイオサイバネティックス, ニューロコンピューティング)

スポンサーリンク

概要

論文の詳細を見る
近年, 「方策こう配法に基づくactor-critic法」が開発された. この手法では, 方策パラメータによって決まる基底関数の線形和によって価値関数の近似を行うため, 価値関数の学習が比較的容易であり, ロボット制御などの大きな状態空間をもつ実問題に対して有用であると考えられる. 我々は以前, 生物を規範とした運動制御機構であるCPGコントローラに対する強化学習モデルとして, CPG-actor-criticモデルを提案したが, この手法は状態行動空間上に与えられる価値関数を学習するものであり, 状態行動空間が大きくなると学習が難しくなる. 本論文では, CPG-actor-criticモデルの学習法に「方策こう配法に基づくactor-critic法」を適用することを提案し, 大きな状態行動空間をもつ問題である二足歩行運動シミュレータを用いた歩行運動獲得課題に適用することで, 本手法が高次元の状態空間をもつ問題にも有効であることを示す.
2005-06-01

著者

関連論文

もっと見る

スポンサーリンク