多腕バンディット問題における経験モーメントを用いた戦略(この論文は研究会登録者以外の方は購入できません)
スポンサーリンク
概要
- 論文の詳細を見る
多腕バンディット問題は強化学習における知識の探索と活用のジレンマを定式化したもので,複数台のスロットマシンを選んでプレイするギャンブラーのモデルとして表される.本論文では各マシンからの reward が区間 [0,1] 上の確率分布にしたがう場合を考える。このモデルにおいては理論限界を漸近的に達成する戦略が知られているが、これは経験分布そのものを用いた凸最適化を毎回実行する必要がある。そこで本研究では任意の次数 d までの経験モーメントのみを用いて計算可能な戦略を新たに提案し、その性能が次数d を増やすことで理論限界に漸近することを示す。また、提案戦略においてはモーメント制約付きKL ダイバージェンス最小化を計算する必要があるが、これが Tchebycheff system の理論を用いることにより代数方程式系の求解に帰着できることを示す。
- 2011-08-29
論文 | ランダム
- Hypercholesterolemia and the Progression of the Renal Dysfunction in Chronic Renal Failure Patients
- 医原性疾患の発生についての実験的研究 : A. 医原性疾患 : 第6回日本精神身体医学会抄録
- 14.日光性皮膚炎について(第5回アレルゲン研究会)
- 213. 摂食障害患者の入院治療に関する考察(第15報) : 行動療法施行後の体重変動(摂食障害III)
- IID-36 心療内科外来における治療構造の設定(教育・治療)