ガウス過程を用いた能動サンプリングに基づく強化学習法

スポンサーリンク

概要

論文の詳細を見る
強化学習では一般に、良い方策を獲得するために多くのサンプルを生成する必要がある。このことは、実ロボットなどの制御を学習する場合、故障や手間などの問題を引き起こす。強化学習で多くのサンプルが必要になる原因の一つとして、学習エージェントが従う方策から受動的にサンプルを生成しなければならないという制約がある。この制約を回避して、学習に有利なサンプルを能動的にサンプリングする強化学習法が望まれるが、現在のところシステマティックな手法は提案されていない。本報告では、方策の収束を保証するための条件を与えた下で、ガウス過程に基づいて能動サンプリングを行う新しい強化学習法を提案する。また、少ないサンプル数で良い方策が獲得できることを計算機実験により示す。
2008-03-05

著者

関連論文

もっと見る

スポンサーリンク