確率的逐次決定過程の分類情報スペクトル的アプローチ

スポンサーリンク

概要

論文の詳細を見る
マルコフ決定過程は,強化学習において,エージェントと環境の相互作用の枠組みを表現するための最も代表的な確率的逐次決定過程である.マルコフ決定過程は定常エルゴードであることを仮定されることが多いが,強化学習の応用で現れる大部分の確率的逐次決定過程はマルコフ性,定常性,エルゴード性を満たすとは限らない.本論文では,定常エルゴードマルコフ決定過程よりも一般的な確率的逐次決定過程における収益最大化において,ある情報スペクトル的性質が重要な役割を果たすことを示す.また,収益最大化のための必要条件を使って確率的逐次決定過程を分類し,必要条件を満たす確率的逐次決定過程における収益最大化の例をいくつか示す.
2010-03-02

著者

関連論文

もっと見る

スポンサーリンク