多腕バンディット問題における大偏差原理を用いた非漸近的解析について(機械学習一般とその応用)
スポンサーリンク
概要
- 論文の詳細を見る
多腕バンディット問題は強化学習における知識の探索と活用のジレンマを定式化したもので,複数台のスロットマシンを選んでプレイするギャンブラーのモデルとして表される.本論文では各マシンからの報酬が区間[0,1]上の確率分布にしたがう場合をまず考える.このモデルにおいて理論限界を達成するものとしてDMED戦略が近年提案されたが,その評価は漸近論に大きく依存しており有限試行回数での性能評価は知られていない.そこで本研究ではKLダイバージェンスの挙動に関する漸近形でない大偏差原理を導出することによりDMED戦略の有限試行回数での性能評価を行う.さらに,報酬の分布のサポートが下側が非有界の場合であっても積率母関数が存在する場合には理論限界を達成可能であることを合わせて示す.
- 2012-06-12
著者
関連論文
- LDPC符号と線形計画法を用いた情報源符号化(フレッシュマンセッション,フレッシュマンセッション,一般)
- F-1 母集団固有値が無限に発散したときのウィッシャート分布(分布論)(2003年度統計関連学会連合大会記録(日本統計学会第71回大会))
- チューブの体積と正規確率場の最大値の分布
- 複数の項目をもつ標本調査のための最適配分
- 実験計画法とグレブナー基底
- 計算代数統計の最近の話題について(日本統計学会賞受賞者特別寄稿論文)
- regularでない一部実施計画のあるクラスの性質(セッション3A,スタディー・グループ・セッション「計算機統計と計算代数の接点」)
- 統計学とグレブナー基底 : 計算代数統計の発端と展開
- コルモゴロフ生誕100年記念確率論数理統計学コンファレンス
- E-4 Characterization of Rankings Generated by Linear Discriminant Analysis(Summary of the Reports at the 71th Annual Meeting)
- D-2 混合分布モデルにおける一致推定量の構成(統計モデル)(2003年度統計関連学会連合大会記録(日本統計学会第71回大会))
- B-5 高次分割表のサンプリングのための不変極小基底(近似)(2003年度統計関連学会連合大会記録(日本統計学会第71回大会))
- B-2 Validity of the Expected Euler Characteristic Heuristic(Summary of the Reports at the 71th Annual Meeting)
- A-1 経験特性関数を用いたコーシー分布のGoodness-of-Fit Test(コンペティション(1))(2003年度統計関連学会連合大会記録(日本統計学会第71回大会))
- SIMULTANEOUS ESTIMATION OF THE MEANS IN SOME POISSON LOG LINEAR MODELS
- Characterization of Rankings Generated by Linear Discriminant Analysis
- 多腕バンディット問題における経験モーメントを用いた戦略
- 大学入試センター試験科目選択データの統計解析
- 高次分割表のサンプリングのための不変極小基底
- Validity of the expected Euler characteristic heuristic
- 個票開示問題の研究の現状と課題 (特集 個票開示問題の統計理論)
- A-2 2次元周辺度数を固定した3×3×K分割表上の既約なマルコフ基底の構成
- A-1 Some characterizations of minimal Markov basis for sampling from discrete conditional distributions
- 統計科学の今後の研究課題と科学研究費の申請について
- 2次元周辺度数を固定した3x3xK分割表上の既約なマルコフ基底の構成
- Some characterizations of minimal Markov basis for sampling from discrete conditional distributions
- B-4 層別抽出における最適配分 : 多変数の場合(官庁統計の現状と課題(3))(日本統計学会第69回大会記録)
- 多腕バンディット問題における経験モーメントを用いた戦略(テーマセッション,コンピュータビジョンとパターン認識のための機械学習)
- 多腕バンディット問題における経験モーメントを用いた戦略(テーマセッション,コンピュータビジョンとパターン認識のための機械学習)
- On a Non-Asymptotic Analysis Using Large Deviation Principles in the Multiarmed Bandit Problelm (情報論的学習理論と機械学習)
- 広がりのある統計学研究をめざして
- Homophonic Codeを用いた非対称通信路のFV符号化 (情報理論)
- A.M.Mathai,S.B.Provost and T.Hayakawa:Bilinear Forms and Zonal Polynomials
- 多腕バンディット問題における大偏差原理を用いた非漸近的解析について(機械学習一般とその応用)
- 二元分割表の副表和モデルに対するマルコフ基底(特別セッション 数理統計学の展開とその応用)
- Homophonic Codeを用いた非対称通信路のFV符号化(フレッシュマンセッション,一般)