連続な状態行動空間において近傍状態の報酬予測を用いた強化学習(エージェント・学習)

スポンサーリンク

概要

論文の詳細を見る
従来の強化学習は一般的に状態行動空間が非連続であった.しかし,実問題においては連続値の状態入力と連続値の行動出力を求められることも多い.状態・行動空間を離散化するのが普通だが,あまり粗く離散化すると細やかな制御ができないという問題が生じる.かといって離散化が細かすぎると探索空間が増大し,通常の離散MDPにおけるQ-learningとその行動選択方法では,なかなか学習が進まなくなり非実用的となる.本論文で提案する手法では,連続な行動空間に対応しながらも離散化が細かく探索空間が大きい場合でも近傍状態の報酬を予測し価値関数を更新することにより効率的に学習できる学習則を提案する.
2004-12-20

著者

関連論文

もっと見る

スポンサーリンク