2人2行動対称ゲームのための学習率調整Q学習(モデル/理論,<特集>ソフトウェアエージェントとその応用論文)
スポンサーリンク
概要
- 論文の詳細を見る
既存のマルチエージェントQ学習は,その多くがナッシュ均衡解を求めることを目的としているが,ナッシュ均衡解が好ましくない囚人のジレンマ(PD)のようなゲームが存在する.筆者はこれまでに,PDに適用するための効用利用Q学習を提案してきた.それは,偶然に相互協調が実現した場合にそれを続けさせるために,Q学習において報酬の代わりにエージェント内で生成した効用を用いるものである.ところで,エージェントの行動はQ値の関係に依存するため,Q学習における学習率を調整することによっても相互協調を続けさせることが可能である.そこで本論文では,学習率を直接扱う学習率調整Q学習(LRA-Q)を提案する.更に,LRA-QがPDだけではなく,他の種類の2人2行動対称ゲームでも機能し得ることを示す.
- 2009-11-01
著者
関連論文
- 固体酸化物燃料電池における損傷過程の可視化
- 2人2行動対称ゲームのための学習率調整Q学習(モデル/理論,ソフトウェアエージェントとその応用論文)
- 特集「エージェント」の編集にあたって
- F-033 囚人のジレンマゲームにおけるQ学習による協調の維持(F分野:人工知能・ゲーム)
- DS-2-7 共有メモリ型マルチエージェントプランニングにおけるプランニングエージェント間の格差の解消(DS-2.安全安心,センシングネットワークとAI,シンポジウムセッション)
- F_034 CONCORによるリンク解析を反映したTF・IDFによるWeb文書の要約(F分野:人工知能・ゲーム)
- CONCORによるリンク解析を用いたWeb文書からの重要語抽出
- 時系列センサデータからのセンサ隣接関係の可視化(「ネットワークデータマイニング」「センサデータマイニング」)
- 時系列センサデータからのセンサ隣接関係の可視化(「ネットワークデータマイニング」「センサデータマイニング」)
- カーネルSOMによる損傷評価のための隣接性を考慮した分類性能評価