状態遷移の推定に基づく能動的価値関数推定法(ポスターセッション,第14回情報論的学習理論ワークショップ)
スポンサーリンク
概要
- 論文の詳細を見る
強化学習において価値関数の精度の良い推定は重要である.本研究では,状態遷移確率の推定の後に,価値関数の推定を行う手法における能動学習法を提案する.提案手法では,データ採取点は推定価値関数と真の価値関数の漸近平均二乗誤差を最小にする最適データ比率を基に決定される.数値実験により,導出した漸近平均二乗誤差値の検証と提案手法の有効性の確認を行う.
- 2011-11-02
著者
関連論文
- RBFネットワークのベイズ推測における特異点近傍での汎化誤差について
- WAICを用いた無限混合ガウスモデルのハイパーパラメタ選択 (情報論的学習理論と機械学習)
- 状態遷移の推定に基づく能動的価値関数推定法(ポスターセッション,第14回情報論的学習理論ワークショップ)
- 間接的価値関数推定におけるモデル選択(強化学習,統計推理,データベース,一般)
- WAICを用いた無限混合ガウスモデルのハイパーパラメタ選択(ベイズ統計モデル,統計推理,データベース,一般)
- 状態遷移の推定に基づく能動的価値関数推定法
- WAICを用いた無限混合ガウスモデルのハイパーパラメタ選択