強化学習によるゲームの評価関数の獲得
スポンサーリンク
概要
- 論文の詳細を見る
二人零和有限完全情報ゲームをプレイするアルゴリズムは,ゲームの途中局面を評価する評価関数を作成し,ミニマックス法にてゲーム木を探索することによりよい手を探すことができる.本研究では,強化学習の代表的な学習アルゴリズムであるQ学習をゲームの評価関数獲得に用いてパラメータ調整を行った.とくに,Q学習の状態遷移における報酬を以下の3通り,(1)ランダムシミュレーションの勝率とする方法,(2)UCB1アルゴリズムの勝率とする方法,(3)UCTアルゴリズムの勝率とする方法,とすることを提案し,それぞれのモデルについて評価実験を行った.その結果,従来のモデル化よりも収束までの学習回数を改善することができた.
- 2009-09-07
著者
関連論文
- 強化学習によるゲームの評価関数の獲得
- 強化学習による評価関数の獲得における報酬設定について
- 深さに応じたバイアスによるモンテカルロ木探索の効率化
- 分割位置を教師値としたテキストの段落分割
- 文章の識別モデルを状態とするHMMによるテキストの段落分割
- 連続型HMMを用いたテキストセグメンテーション(基礎技術,自然言語処理)
- 連続型HMMを用いたテキストセグメンテーション(基礎技術,自然言語処理)
- D-5-11 Webニュースに対するコメントの感情推定(D-5.言語理解とコミュニケーション,一般セッション)
- 言語モデルの違いによるHMMを用いたテキストセグメンテーションの性能比較
- コンピュータ大貧民における高速な相手モデル作成と精度向上
- コンピュータ大貧民における高速な相手モデル作成と精度向上
- マイクロブログのインフォーマルな書き込みに対する自動分類