マルコフゲームにおける環境モデルの推定を利用したマルチエージェント強化学習法

スポンサーリンク

概要

論文の詳細を見る
本稿では, マルコフゲームにおける新たなマルチエージェント強化学習法を提案する.本稿で提案するマルチエージェント強化学習法では, エージェントが, 環境モデル(環境内に存在する他エージェントの政策と, 環境の状態遷移関数)を推定し, その推定した環境モデルを利用して, (エージェントが)どの行動を実行すればどの環境状態に遷移するかを予測する.そして, その予測した環境状態における価値関数(V関数)を基に, どの行動を実行すればよいかを決定し, 強化学習を進行する.提案したマルチエージェント強化学習法をマルコフゲームの枠組みでモデル化した追跡問題に適用し, 実験を行った結果, その有効性が示される.
2001-07-16

著者

関連論文

もっと見る

スポンサーリンク