強化学習による評価関数の獲得における報酬設定について
スポンサーリンク
概要
- 論文の詳細を見る
ゲームの評価関数を強化学習を用いて獲得する場合,一般的には終了局面における勝敗を報酬とし,途中局面の報酬を 0 とする手法が知られている.本研究では途中局面に対する報酬をその局面におけるランダムシミュレーションの勝率とし,終了局面における勝敗の報酬の大きさを変化させた場合の違いを検証する.さらにオセロゲーム Zebra において利用されている盤面パターンの評価重みを本手法により学習し,実験的評価とする.
- 2010-06-18
著者
関連論文
- 強化学習によるゲームの評価関数の獲得
- 強化学習による評価関数の獲得における報酬設定について
- 深さに応じたバイアスによるモンテカルロ木探索の効率化
- 分割位置を教師値としたテキストの段落分割
- 文章の識別モデルを状態とするHMMによるテキストの段落分割
- 連続型HMMを用いたテキストセグメンテーション(基礎技術,自然言語処理)
- 連続型HMMを用いたテキストセグメンテーション(基礎技術,自然言語処理)
- D-5-11 Webニュースに対するコメントの感情推定(D-5.言語理解とコミュニケーション,一般セッション)
- 言語モデルの違いによるHMMを用いたテキストセグメンテーションの性能比較
- コンピュータ大貧民における高速な相手モデル作成と精度向上
- コンピュータ大貧民における高速な相手モデル作成と精度向上
- マイクロブログのインフォーマルな書き込みに対する自動分類