自己評価により学習するエージェントに関する研究(エージェント・分散人工知能)(<特集>人工知能分野における博士論文)
スポンサーリンク
概要
- 論文の詳細を見る
本論文ではマルチエージェント環境での強化学習を扱う.従来のマルチエージェント強化学習はゲーム理論のナッシュ均衡に収束させることを目的とするが,囚人のジレンマのようにナッシュ均衡がパレート最適とならないゲームが存在する.一方で,報酬を操作することによりナッシュ均衡から逸脱する行動を学習させる研究が存在するが,ナッシュ均衡がパレート最適となるゲームでは逆に悪影響を与えることがある.したがって本研究では,おのおのの立場が同じ対称な環境において,囚人のジレンマと同様のゲームではナッシュ均衡から逸脱する行動を,それ以外のゲームではナッシュ均衡を構成する行動を学習することを目的とした.まず,ナッシュ均衡とパレート最適の概念から対称なマルチエージェント環境を非干渉・泥沼・選択・競合の四つの状況に分類した.囚人のジレンマは泥沼状況である.さらに,泥沼状況とそれ以外の状況に適する自己評価生成法である「近隣報酬」と「報酬差分」を導入した.それから,強化学習手法としてQ学習を用いる各エージェントについて,Q関数と報酬の関係から状況を判定する条件を二つ導入し,少なくとも一つが満たされる場合に「近隣報酬」を用い,満たされない場合に「報酬差分」を用いて自己評価を生成し学習する「自動選択」を提案した.上記各状況に対応するゲームと途中で状況間を遷移するゲームにより実験を行い,提案手法の有効性を確認した.
- 2004-01-01
著者
関連論文
- 社会的ジレンマを解決する内部評価生成法の分析
- DS-2-7 共有メモリ型マルチエージェントプランニングにおけるプランニングエージェント間の格差の解消(DS-2.安全安心,センシングネットワークとAI,シンポジウムセッション)
- F_034 CONCORによるリンク解析を反映したTF・IDFによるWeb文書の要約(F分野:人工知能・ゲーム)
- CONCORによるリンク解析を用いたWeb文書からの重要語抽出
- 時系列センサデータからのセンサ隣接関係の可視化(「ネットワークデータマイニング」「センサデータマイニング」)
- 時系列センサデータからのセンサ隣接関係の可視化(「ネットワークデータマイニング」「センサデータマイニング」)
- カーネルSOMによる損傷評価のための隣接性を考慮した分類性能評価
- カーネルSOMによる損傷評価のための隣接性を考慮した分類性能評価
- 自己評価により学習するエージェントに関する研究(エージェント・分散人工知能)(人工知能分野における博士論文)
- 2000-ICS-120-2 相互依存関係にある内部モジュールを持つ自律システムの構築について
- DS-2-6 ユビキタス環境下における非同期多目的達成のための実時間リアクティブプランニング法の提案(DS-2. 安全安心とセンシングネットワーク,シンポジウムセッション)
- リンク構造に基づいたWWW からのトピック抽出
- D-8-7 アフィリエイトサービスにおける効用向上のための自律コミュニティ形成技術(D-8. 人工知能と知識処理, 情報・システム1)
- 構造同値に基づいたWebページの分類の高速化技術の提案
- 構造同値に基づいたWebページの分類の高速化技術の提案
- リンク構造に基づいたWWWからのトピック抽出
- 構造同値に基づくWebページの分類(「社会システムにおける知能」および一般)
- 構造同値に基づくWebページの分類(一般,「社会システムにおける知能」および一般)
- D-10-3 分散データベースにおけるアシュアランス性向上のための自律マルチモバイルエージェント構成技術(D-10. ディペンダブルコンピューティング, 情報・システム1)
- D-10-1 信頼性と情報保持量を考慮した情報配布システム構造決定技術(D-10. ディペンダブルコンピューティング, 情報・システム1)
- 環境状況に応じて自己の報酬を操作する学習エージェントの構築