不完全知覚環境に対応したPS-rの改良
スポンサーリンク
概要
- 論文の詳細を見る
A Partially Observable Markov Decision Process (POMDP) is a class of non-Markovian environment. A POMDP has the partially observable state (POS) in which agents mistake different environmental states for a same sensory input. PS-r, based on Profit Sharing and the Rational Policy Making algorithm with random selection, focuses especially on these POMDPs. PS-r extracts the POS by means of a Chi-square test. PS-r, however, is very complicated and slow to converge and also needs much memory. Thus, we simply extract the POS by examining whether an input state transits to a same state as before or not. This modification of PS-r improves learning efficiency and reduces the amount of memory needed. Numerical experiments show the advantage over PS-r and the limitation of the proposed method.
- 岐阜工業高等専門学校の論文
- 2007-03-01
著者
関連論文
- 囚人のジレンマの最適戦略の進化的学習手法による獲得
- 仮想ポテンシャル関数を用いたエージェントの相互制御方法に関する検討
- 確定的アニーリング法を用いたファジィクラスタリングとその統計力学的性質
- 確定的アニーリング法とファジィエントロピーを用いたファジィクラスタリング
- ファジィエントロピーと発見的探索手法を用いたファジィクラスタリング
- マルチエージェント系のポテンシャル関数による制御と強化学習の適用に関する検討
- 遺伝的アルゴリズムを用いたサッカープレーヤ間の協調動作系列の獲得(特集・エージェント技術とその応用)
- 決定木を用いたサッカープレーヤ制御のための状態空間の自律的構成法に関する検討(特集・エージェント技術とその応用)
- エントロピーを導入したファジィc-平均法の統計力学的解釈
- 相転移を利用した階層化ファジィクラスタリング
- ファジィエントロピーを利用したファジィc-平均法への確定的アニーリング法の適用
- クラスタリングを用いた競合共進化手法の2人対戦ゲームへの適用
- 不完全知覚環境に対応したPS-rの改良