多腕バンディット問題における経験モーメントを用いた戦略(この論文は研究会登録者以外の方は購入できません)
スポンサーリンク
概要
- 論文の詳細を見る
多腕バンディット問題は強化学習における知識の探索と活用のジレンマを定式化したもので,複数台のスロットマシンを選んでプレイするギャンブラーのモデルとして表される.本論文では各マシンからの reward が区間 [0,1] 上の確率分布にしたがう場合を考える。このモデルにおいては理論限界を漸近的に達成する戦略が知られているが、これは経験分布そのものを用いた凸最適化を毎回実行する必要がある。そこで本研究では任意の次数 d までの経験モーメントのみを用いて計算可能な戦略を新たに提案し、その性能が次数d を増やすことで理論限界に漸近することを示す。また、提案戦略においてはモーメント制約付きKL ダイバージェンス最小化を計算する必要があるが、これが Tchebycheff system の理論を用いることにより代数方程式系の求解に帰着できることを示す。
- 2011-08-29
論文 | ランダム
- 足元の「豊かさ」からの出発 (ソフト・パワ-の時代・日本の選択(特別企画)) -- (私の提言 21世紀への「日本の選択」)
- 介護保険への疑問(時代の眼)
- 永田前議員が迷走した理由 バブル世代の"無邪気"を分析する (特集 「若害」の研究)
- ミレニアム大性談 「自立した女」の奥の院
- 「平気でうそをつく人たち」の危ない読まれ方 ベストセラ-の危険な罠