選択的不感化ニューラルネットを用いた強化学習の価値関数近似(知識獲得,機械学習,<特集>情報爆発論文)

スポンサーリンク

概要

論文の詳細を見る
連続状態空間で強化学習を行う場合,価値関数を少ないサンプルで精度良く近似することが重要であるが,従来用いられてきた局所的近似手法は,近似精度と学習効率の両立が困難である上に,状態空間の次元が高くなると学習時間や計算コストが爆発的に増大するという問題を抱えている.本研究では,選択的不感化ニューラルネットを用いて関数近似器を構成するとともに,これによって価値関数を近似することでこの問題が大きく改善できることを示す.アクロボットの振り上げ課題を用いた実験の結果,本手法は学習効率が近似精度の割に高く,冗長変数を加えてもほとんど低下しない,状態空間の次元が増えても計算コストの爆発的増加が生じない,オンライン学習が可能など,実空間における強化学習に適した性質を備えることが分かった.この結果は,膨大な情報の中から必要な情報だけを抽出する情報処理技術の開発にもつながると考えられる.
2010-06-01

著者

関連論文

もっと見る

スポンサーリンク