エージェントの行動空間における状態空間再構成法
スポンサーリンク
概要
- 論文の詳細を見る
位置情報が連続値である環境でエージェントが行動学習をする場合,連続値の位置情報をエージェントの状態認識として用いると,学習に膨大な時間がかかってしまう.そこで設計者が事前に状態を離散化することで問題を解決してきた.しかし,これでは設計者が適当に離散化した状態空間がエージェントにとって最適なものとなっている保証はない.そこで,本稿では事前に離散化した状態空間からクラスター分析を用いて各状態における政策の類似度を求め,動的に状態の再構成を行う.また,再構成を行う時期についてはエージェントが行動の中で得られる情報だけでその時期を獲得することが望ましい.そのため,行動の不確定性を導出する学習残エントロピーを使用することでその時期を見極め,再構成を実行する.
- 2004-01-22
論文 | ランダム
- C-12-4 任意波形発生器での2トーン信号相互変調歪みのデジタル補正(ミックスドシグナル,C-12.集積回路,一般セッション)
- 2A13-5 ヘテロオリゴマータンパク質である抗体酵素の酵母細胞表層への提示とその機能評価
- 828 オリゴマータンパク質の4次構造の安定性に関する理論的考察
- 209) 血行動態からみたニトログリセリン(NTG)の虚血心予防及び緩解効果の検討 : 日本循環器学会第55回近畿地方会
- 33)老年者における虚血性心疾患の臨床像の特徴 : 日本循環器学会第54回近畿地方会