エージェントの行動空間における状態空間再構成法

スポンサーリンク

概要

論文の詳細を見る
位置情報が連続値である環境でエージェントが行動学習をする場合,連続値の位置情報をエージェントの状態認識として用いると,学習に膨大な時間がかかってしまう.そこで設計者が事前に状態を離散化することで問題を解決してきた.しかし,これでは設計者が適当に離散化した状態空間がエージェントにとって最適なものとなっている保証はない.そこで,本稿では事前に離散化した状態空間からクラスター分析を用いて各状態における政策の類似度を求め,動的に状態の再構成を行う.また,再構成を行う時期についてはエージェントが行動の中で得られる情報だけでその時期を獲得することが望ましい.そのため,行動の不確定性を導出する学習残エントロピーを使用することでその時期を見極め,再構成を実行する.
2004-01-22

論文 | ランダム

もっと見る

スポンサーリンク