マルチエージェント系における行動学習への方策こう配法の適用 : 追跡問題(分散協調とエージェント)

スポンサーリンク

概要

論文の詳細を見る
マルチエージェント系における行動学習法として方策こう配法を用いる方式がある.その方式では,自律分散的な行動決定法を採用することにより,マルチエージェント系の学習問題を各エージェントの独立した学習問題に帰着させている.すなわち,エージェント個々の方策としてパラメータを含む確率的方策を用い,報酬の期待値が最大となるように最大こう配を計算しながらパラメータを更新する.本論文では,まず,各時刻における行動決定問題をある目的関数の最小化問題ととらえ,この目的関数をエネルギー関数とするボルツマン分布を確率的方策として採用した.次に,この目的関数が,状態の価値,状態・行動ルール,ポテンシャル等の項によって表現できることを示した.更に,この方式を追跡問題に適用して実験を行った結果,良好な方策を得るとともに,本方式は方策中への行動制約や目的の変更追加,ヒューリスティクスの利用に柔軟に対応できることが分かった.
2004-03-01

著者

関連論文

もっと見る

スポンサーリンク