他エージェントの内部モデル推定を利用したマルチエージェント強化学習法

概要

論文の詳細を見る
マルチエージェント強化学習の研究が近年注目を集めている.マルチエージェント環境において, 個々のエージェントの実行した行動の良し悪しは他エージェントに依存する.我々は以前, 他エージェントの内部モデル推定を利用したマルチエージェント強化学習法を提案した.そこでは, 他エージェントの内部モデル推定に他エージェントの行動観測を用いた.本研究では, 他エージェントの内部モデル推定法として自己参照推定法を提案する.そして, 追跡問題を課題として, この2つの内部モデル推定法を利用したマルチエージェント強化学習法を比較検討した.
2000-05-18

著者

石井信
奈良先端科学技術大学院大学
長行康男
奈良先端科学技術大学院大学情報科学研究科

関連論文

混合 von Mises-Fisher 分布の変分ベイズ推定について
内部状態を用いた強化学習によるマルチエージェント系における協調行動の獲得(機械学習によるバイオデータマインニング,一般)
指数族行列因子化の状態空間モデルへの拡張と時系列関係データ解析への応用
POMDP課題遂行中のヒトの情報処理過程の隠れマルコフモデリング(一般)
階層的パーティクルフィルタのための適応的サンプリング分布推定とその剛体の実時間姿勢推定への応用
移動ロボットにおける環境同定のための統計的アプローチ
同時発音の相関を考慮した確率モデルによる音楽の和声推定
エピソードタスクにおける方策オフ型LSTD(λ)法とその収束性(機械学習によるバイオデータマインニング,一般)
線スペクトル対を用いた楽器分類
隠れマルコフ/セミマルコフモデルに基づき原信号を動的に切り替える非定常独立成分分析
スムースギャップ事前分布をもちいた超解像
Bayesian noisy ICA for source switching environments
価値関数の分解による高速な強化学習法
非線形ノイズ付き独立成分分析
学習によるproduct codeの設計(情報理論)
NC2000-50 サポートベクターマシンによるminimax戦略の獲得
アレイ比較ゲノムデータ正規化手法Combfitについて(セッション1:『機械学習によるバイオデータマインニング』)
ハイブリット型学習による隠れ素子付き連想記憶モデル
Poisson過程に従うスパイク列に対するスパイキングニューロンモデルの応答
部分観測カードゲームのためのモデル同定型強化学習(バイオサイバネティックス, ニューロコンピューティング)
自己回帰モデルを用いた脳波・筋電信号ネットワークの同定
cDNA microarray を用いた肝細胞癌の遺伝子解析 : 予後予測を含めた臨床応用への試み(第105回日本外科学会定期学術集会)
CPG-Actor-Critic法によるミミズ型ロボットの推進運動の獲得
WS-9-05 遺伝子診断(PCR-array)による肝細胞癌術後5-FU/IFN-α併用療法の効果予測(ワークショップ9 : 分子生物・遺伝子研究の消化器癌補助療法への応用)
二値分類器集合による遺伝子発現プロファイルからの癌サブクラス識別法(バイオインフォマティックス(1))
線形ダイナミカルシステムモデルの変分ベイズ推定による遺伝子発現時系列のシステム同定
二値分類器組み合わせの確率モデルに基づく多クラスパターン識別
相手モデル学習を取り入れたマルチエージェント系の強化学習法
相手学習に基づくマルチエージェントゲームの強化学習
確率的逐次因子分解による単眼画像時系列からの三次元構造復元(ベイズ情報処理,ベイズ情報処理及び一般)
適応的サンプリングによる階層モデル化された対象の効率的状態推定
強化学習 : 理論と応用
強化学習の基礎理論と応用
内部状態の報酬に基づいた推定を行う強化学習法
筋電信号に基づいた示指によるピアノ打鍵時の脱力度評価
神経振動子ネットワークを用いたリズム運動に対する強化学習法(バイオサイバネティックス,ニューロコンピューティング)
連続力学システムの自動制御のためのオンラインEM強化学習法^*
オンライン変分ベイズ法による部分観測環境の同定と強化学習への応用
ベイズ的主成分分析の事前分布ハイパーパラメータについて
変分法的ベイズ推定による混合主成分分析
神経振動子ネットワークを用いた強化学習法による歩行運動の獲得
前頭前野における隠れ状態推定と環境ダイナミクス同定の機能分離
階層化ルールを用いる際のヒト行動制御のイメージング研究
モデル同定強化学習の脳型情報処理モデルとfMRI研究(「脳・認知科学」及び一般)
正規化ガウス関数ネットワークの変分法的ベイズ学習
変分法的オンラインベイズ学習による関数近似
統計的手法にもとづく強化学習と制御ルールの獲得
正規化ガウス関数ネットワーク, Mixture of expertsとEMアルゴリズム
オンラインEMアルゴリズムによる動的な関数近似
オンラインEMアルゴリズムによる動的な関数近似
ユーザーの生体信号計測に基づいたロボットとの動的・協調的インタラクション(生体信号の計測と解析,一般)
ニューラルネットワークによる2次割当て問題の一解法とそのダイナミックス
アナログλ-optアルゴリズムを使った2次割当て問題の解法
座標変換を用いたカオス最適化手法
染色体異常に対する混合木モデルの紹介とその改良(遺伝子発現・ネットワーク)
マルチエージェント環境におけるコミュニケーションの段階的創発(セッション : 社会システムと知能(エージェントモデルと意思決定), 「社会システムにおける知能」及び一般)
マルチエージェント環境におけるコミュニケーションの段階的創発
マルチエージェント環境におけるコミュニケーションの段階的創発(社会システムと知能(エージェントモデルと意思決定), 「社会システムにおける知能」及び一般)
排他的報酬環境における強化学習エージェントの進化
大脳皮質培養神経回路網における情報符号の刺激依存性
アクチンフィラメントによる成長円錐の糸状仮足伸長メカニズム
混合カルマンフィルタによる隠れ状態推定法 : Cyber Rodentの自己位置同定への応用
サンプル再利用型強化学習による準受動2足歩行ロボットの学習
強化学習と脳における報酬系の情報処理(脳化学2,数学者のための分子生物学入門-新しい数学を造ろう-)
部分観測環境での意思決定に必要な特徴空間の抽出(「機械学習によるバイオデータマインニング」及び「一般」)
重点サンプリングに基づくNatural Actor-Critic法による効果的なサンプルの再利用(人工知能,認知科学)
モデル誤差を考慮した強化学習法による実ロボットの適応制御
方策勾配法による準受動歩行制御の学習
方策オフ型Natural Actor-Critic法
方策こう配法に基づく強化学習法と二足歩行運動制御への応用(バイオサイバネティックス, ニューロコンピューティング)
複数制御器の切換学習法による実アクロボットの制御(人工知能)
自然方策勾配法に基づくオフポリシー型強化学習法
二足歩行運動に対する方策勾配法に基づいた強化学習法
複数の制御器の系列学習法による非線形制御
マルチエージェントカードゲームのための強化学習法の改良
確率的方策勾配法に基づくactor-critic法と連続システムの制御への応用
強化学習におけるexplorationとexploitationの制御
オンラインEM強化学習法を用いた連続システムの自動制御
他エージェントの内部モデル推定を利用したマルチエージェント強化学習法
オンラインEMアルゴリズムによる強化学習法のacrobot制御への応用
連続力学システムに対する強化学習の一手法
関数近似器を用いた連続マルチエージェント系の強化学習
オンラインEMアルゴリズムを用いた強化学習法
変分ベイズ法による遺伝子発現データのクラスタリング
PD-25-9 肝細胞癌術後5-FU/IFN-α併用療法の効果予測 : PCR-arrayによる遺伝子発現解析から
PCR-arrayを利用した肝細胞癌の術後肝内転移再発の遺伝子診断
PCR-arrayを利用した肝細胞癌の悪性度診断 : 術後早期残肝再発危険群の予測から
不確実環境における意思決定の計算モデル
2種の平滑化埋め込みを用いたニューラルネットによるカオス力学系の再構成
積分埋め込みを用いたニューラルネットによるカオス力学系の再構成
オンラインEMアルゴリズムによるカオス力学系の学習と耐ノイズ性
正規化ガウス関数ネットワークとEMアルゴリズムによるカオス力学系再構成
オンラインEMアルゴリズムを用いたカオス力学系の再構成
神経情報科学サマースクール報告
二値分類器組み合わせの確率モデルに基づく多クラスパターン識別
線形ダイナミカルシステムモデルの変分ベイズ推定による遺伝子発現時系列のシステム同定
多段階手続きによる日本語活字文字認識
学習ダイナミクスの制御と脳の物質機構(システムと生命総合特集号)
沖縄計算神経科学コース(Okinawa Computational Neuroscience Course)経過報告
神経情報科学サマースクール(NISS)2003報告神経情報科学サマースクール2003経過報造

他エージェントの内部モデル推定を利用したマルチエージェント強化学習法

スポンサーリンク

概要

著者

関連論文

スポンサーリンク