1C3-2 分配価値関数をもちいた最適報酬分配学習(1C3 最適化2)
スポンサーリンク
概要
- 論文の詳細を見る
Reward distribution is one of the most difficult problem in multi-agent reinforcement learning. This paper proposes that when the goal is achieved by an agent, agents' demands for a part of reward are adjusted through joint strategy selected by each distribution value function. Distribution value function estimates how good it's strategy about reward demand is for the agent at the episode time. In a computer simulation of pursuit game involved 2 hunters seeking to capture a prey in a 5×5 grid world, the proposed method is able to acquire a better performance than the ordinary method of fixed reward distribution.
- 一般社団法人日本機械学会の論文
- 2006-09-25
著者
関連論文
- 生態系における捕獲戦略の進化
- 共進化を利用したニューラルネットワークの一設計法
- 重複変異と適応度調節を用いた遺伝的アルゴリズム
- 1-106 報酬分配エージェントによる強化学習
- 生体信号を用いた音声分析に関する研究
- 重複突然変異によるニューラルネットの構造設計に関する検討
- 遺伝アルゴリズムを用いたロボット制御回路の構造設計
- 価値モジュラ律によるパラダイム創造のための価値生産について
- 価値論理式およびその情報制御連立式による宇宙の第一原理・統一理論に関する一考察
- 生産・分配における制御システム理論の価値創造的方法論について
- D-8-3 共進化を利用した機能設計
- ISO14000におけるトータルマネジメントエンジニアリングについて
- ISO14000におけるト-タルマネジメントエンジニアリングについて
- 情報科学による価値探究規則の方法論について
- 価値論理による市場研究の価値情報創造について
- 格子ゲームによる強化学習アルゴリズムの比較
- A-13-1 マルチエージェント環境下における強化学習パラメータの適応的調節
- マルチエージェント強化学習における最適報酬配分
- 共進化遺伝的アルゴリズムの強化学習への応用に関する考察
- 遺伝的アルゴリズムによるロボット軌道計画
- 果実の非破壊糖酸度測定の基礎検討
- 果実や根の非破壊重量計測
- ニューラルネットワークによる脳磁場信号源の推定
- RF-005 確率環境下での優先度スイープ(人工知能・ゲーム,査読付き論文)
- ナッシュQ学習における協調行動の生成
- 1C3-2 分配価値関数をもちいた最適報酬分配学習(1C3 最適化2)
- Actor-Critic アルゴリズムの倒立振子制御問題への応用
- LF-007 交渉過程を導入したマルチエージェントシステムにおける報酬分配学習(F分野:人工知能・ゲーム)
- 周波数成形された出力フィードバックによるスライディングモ-ド制御系とプロセス系の追値制御への応用
- スキーマを抽出する部分適合度関数を利用した共進化遺伝的アルゴリズム
- 部分適合度関数をもちいた共進化遺伝的アルゴリズム
- D-8-20 部分適合度関数を利用した共進化遺伝的アルゴリズム
- マルコフ連鎖解析による淘汰方式の評価
- 確率環境下でのモデルベース学習
- 重複変異を用いた遺伝的アルゴリズムとその評価
- 重複変異を用いた遺伝的アルゴリズムとそのニュ-ラルネットワ-ク設計への応用
- GA-ファジィエキスパートの飛行体制御への応用
- 複素Hopfield回路とその応用
- ニュ-ラルネットワ-クによる脳磁場信号源の推定