マルチエージェントカードゲームのための信念状態強化学習法
スポンサーリンク
概要
- 論文の詳細を見る
本報告では,部分観測環境を成す実問題であるカードゲームHeartsを研究用タスクとして扱い,そこでの非観測状態の推定のために,サンプリング法を用いた手法を提案する.また本状態推定法を取り入れたマルチエージェント系強化学習法を提案する.Heartsでは非観測なカードが多く存在するため,本手法では部分観測マルコフ決定過程(POMDP)として定式化している.学習エージェントは悲観的観測空間に着目することにより,広大な状態空間から重要な部分空間のみを切り出した上でサンプリング法に基づいて非観測状態を推定し,環境のダイナミクスを予測することで自身の行動を決定する.本手法がHeartsの強化学習問題に対して有効であることを,計算機シミュレーションにより示す.
- 2004-03-12
著者
関連論文
- 部分観測カードゲームのためのモデル同定型強化学習(バイオサイバネティックス, ニューロコンピューティング)
- 変分法的ベイズ推定法に基づく正規化ガウス関数ネットワークと階層的モデル選択法
- 混合主成分分析モデルによる欠測データ予測
- 部分観測環境での意思決定に必要な特徴空間の抽出(「機械学習によるバイオデータマインニング」及び「一般」)
- マルチエージェントカードゲームのための信念状態強化学習法
- マルチエージェントカードゲームのための強化学習法の改良