間接的価値関数推定におけるモデル選択(強化学習,統計推理,データベース,一般)
スポンサーリンク
概要
- 論文の詳細を見る
強化学習は期待収益を最大化する方策を学習により発見する方法として提案され,ロボティクス,レコメンドシステム,自然言語処理アルゴリズムの最適化に応用されている.強化学習の実現においては方策がもたらす将来の期待収益を表す価値関数の推定が必要である.本研究では,状態遷移確率の推定を介して価値関数を間接的に推定する方法について考察する.推定に用いるデータ数が十分多いという仮定の上で,状態遷移確率パラメタに構造が入る際の真の価値関数と推定価値関数の平均二乗誤差の漸近挙動を理論的に解明する.この解析をもとにモデル選択規準を提案し,数値実験を通してその有効性を明らかにする.
- 2012-03-05
著者
関連論文
- RBFネットワークのベイズ推測における特異点近傍での汎化誤差について
- WAICを用いた無限混合ガウスモデルのハイパーパラメタ選択 (情報論的学習理論と機械学習)
- 状態遷移の推定に基づく能動的価値関数推定法(ポスターセッション,第14回情報論的学習理論ワークショップ)
- 間接的価値関数推定におけるモデル選択(強化学習,統計推理,データベース,一般)
- WAICを用いた無限混合ガウスモデルのハイパーパラメタ選択(ベイズ統計モデル,統計推理,データベース,一般)
- 状態遷移の推定に基づく能動的価値関数推定法
- WAICを用いた無限混合ガウスモデルのハイパーパラメタ選択