自然 TD 学習 : 割引報酬における TD 誤差を利用する自然方策勾配に基づいた強化学習法

スポンサーリンク

概要

論文の詳細を見る
近年, 環境との相互作用を通じて学習する手法である強化学習が注目されている.パラメータ空間がリーマン構造であっても自然勾配は最急勾配方向を表すため, 自然勾配に基づく強化学習の方策勾配法である自然方策勾配法は特に強力なツールになる.しかし, 自然方策勾配法を実問題に適用するには必要となるサンプル数や逆行列の計算が問題となる.そこで本報告では, 実用的な自然方策勾配法として自然時間差分学習法(自然TD学習法)を提案する.これは目的関数が平均報酬に制限されるために多くのサンプル数が必要となる問題に対処し, 逆行列の計算を必要としない適応的な自然方策勾配法である.自然TD学習では状態価値関数のTD誤差を状態空間ではなく状態行動空間で定義する.この時, TD誤差はアドバンテージ関数をコードし, さらにTD誤差を近似したある線形近似器の重みが自然方策勾配を与えることを示す.2種のシミュレーション実験に自然TD学習を適用し, 有効性を議論する.
2005-03-22

著者

関連論文

もっと見る

スポンサーリンク