エージェントの行動空間における状態空間再構成法
スポンサーリンク
概要
- 論文の詳細を見る
位置情報が連続値である環境でエージェントが行動学習をする場合,連続値の位置情報をエージェントの状態認識として用いると,学習に膨大な時間がかかってしまう.そこで設計者が事前に状態を離散化することで問題を解決してきた.しかし,これでは設計者が適当に離散化した状態空間がエージェントにとって最適なものとなっている保証はない.そこで,本稿では事前に離散化した状態空間からクラスター分析を用いて各状態における政策の類似度を求め,動的に状態の再構成を行う.また,再構成を行う時期についてはエージェントが行動の中で得られる情報だけでその時期を獲得することが望ましい.そのため,行動の不確定性を導出する学習残エントロピーを使用することでその時期を見極め,再構成を実行する.
- 2004-01-22
論文 | ランダム
- 67)類白血病反応を示した三尖弁感染症の1症例 : 日本循環器学会第79回東北地方会
- 52)著名な洞性徐脈と胸痛を伴ったWPW症候群のペースメーカー療法 : 日本循環器学会第79回東北地方会
- 36)冠動脈造影におけるニトログリセリン注入量の検討 : 日本循環器学会第79回東北地方会
- 9)血液透析患者における心内石灰化現象の心エコーによる検討 : 日本循環器学会第79回東北地方会
- 52)プログラマブル・ぺースメーカー植込後の臨床経過 : QT時間の検討 : 日本循環器学会第75回東北地方会