多腕バンディット問題における経験モーメントを用いた戦略(この論文は研究会登録者以外の方は購入できません)

スポンサーリンク

概要

論文の詳細を見る
多腕バンディット問題は強化学習における知識の探索と活用のジレンマを定式化したもので,複数台のスロットマシンを選んでプレイするギャンブラーのモデルとして表される.本論文では各マシンからの reward が区間 [0,1] 上の確率分布にしたがう場合を考える。このモデルにおいては理論限界を漸近的に達成する戦略が知られているが、これは経験分布そのものを用いた凸最適化を毎回実行する必要がある。そこで本研究では任意の次数 d までの経験モーメントのみを用いて計算可能な戦略を新たに提案し、その性能が次数d を増やすことで理論限界に漸近することを示す。また、提案戦略においてはモーメント制約付きKL ダイバージェンス最小化を計算する必要があるが、これが Tchebycheff system の理論を用いることにより代数方程式系の求解に帰着できることを示す。
2011-08-29

論文 | ランダム

もっと見る

スポンサーリンク