確率的連続行動の強化学習 : 直交関数展開による確率密度関数の近似

スポンサーリンク

概要

論文の詳細を見る
本報告では, 連続行動連続状態のMarkov決定過程により記述された環境において, 強化学習の一手法であるactor-criticにより, 任意の確率密度関数で表現された最適な方策を決定する方法を提案する.連続行動連続状態のactor-criticにおける方策は, 行動の確率密度関数に従って行動を確率的に決定することにより実現される.そのため, 行動の確率密度関数を学習するには, 確率密度関数を近似的に表す関数近似器が必要となる.近似精度と汎化能力に優れた関数近似は, 直交関数系を基底として用いることにより実現できる.しかしながら, 確率密度関数は正値であるため, 実数空間における直交関数系で展開できないという問題がある.本報告では, 複素正規直交関数系で展開された波動関数の積で確率密度関数を近似する方法を提案する.これにより, 任意の確率密度関数で表現された方策を高い精度で実現できることを示す.
2005-07-18

著者

関連論文

もっと見る

スポンサーリンク