選択的不感化ニューラルネットを用いた強化学習の価値関数近似(知識獲得,機械学習,<特集>情報爆発論文)
スポンサーリンク
概要
- 論文の詳細を見る
連続状態空間で強化学習を行う場合,価値関数を少ないサンプルで精度良く近似することが重要であるが,従来用いられてきた局所的近似手法は,近似精度と学習効率の両立が困難である上に,状態空間の次元が高くなると学習時間や計算コストが爆発的に増大するという問題を抱えている.本研究では,選択的不感化ニューラルネットを用いて関数近似器を構成するとともに,これによって価値関数を近似することでこの問題が大きく改善できることを示す.アクロボットの振り上げ課題を用いた実験の結果,本手法は学習効率が近似精度の割に高く,冗長変数を加えてもほとんど低下しない,状態空間の次元が増えても計算コストの爆発的増加が生じない,オンライン学習が可能など,実空間における強化学習に適した性質を備えることが分かった.この結果は,膨大な情報の中から必要な情報だけを抽出する情報処理技術の開発にもつながると考えられる.
- 2010-06-01
著者
関連論文
- 選択的不感化ニューラルネットを用いた強化学習の価値関数近似(知識獲得,機械学習,情報爆発論文)
- ロボットスーツHALによる移乗介助動作の支援
- 選択的不感化ニューラルネットを用いた表面筋電位信号からの手の動作識別 (ニューロコンピューティング)
- 選択的不感化ニューラルネットを用いた表面筋電位信号からの手の動作識別 (非線形問題)
- 手先の運動速度に基づく視覚運動性手続き記憶のチャンク構造の推定 (ヒューマン情報処理)
- 手先の運動速度に基づく視覚運動性手続き記憶のチャンク構造の推定 (ヒューマンコミュニケーション基礎)
- 冗長次元を含む状態空間における選択的不感化ニューラルネットを用いた強化学習(神経ダイナミクス,一般)
- 選択的不感化ニューラルネットを用いた強化学習の効率化
- 選択的不感化理論に基づく海馬ニューロン活動のモデル化
- 軌道アトラクタを用いたパターンベース推論(バイオサイバネティックス,ニューロコンピューティング)
- LH_002 神経力学系間の相互作用に基づく文脈依存的時空間パターン処理(H分野:生体情報科学)
- 軌道アトラクタモデルによる分散表現に基づく推論
- 選択的不感化法を適用した層状ニューラルネットの情報統合能力(バイオサイバネティックス、ニューロコンピューティング)
- 下側頭葉における文脈依存的連想の計算論的モデル(バイオサイバネティックス,ニューロコンピューティング)
- 多層パーセプトロンの限界とその解消
- 嗅周皮質の可塑性に基づく受動的連合形成のモデル
- 下側頭葉における文脈依存的連想のモデル
- 非単調神経回路網におけるパターン系列生成の時間制御
- 非単調神経素子の選択的不感化を用いた文脈依存的連想モデル
- 下側頭葉ニューロンの想起活動に関する計算論的考察
- 子どものためのロボティクス : 教育・療育支援における新しい方向性の提案
- 選択的不感化ニューラルネットを用いた強化学習の価値関数近似
- 選択的不感化ニューラルネットを用いた表面筋電位信号からの手の動作識別(機械学習によるバイオデータマインニング,生命現象の非線形性,一般)
- NLP2010-6 選択的不感化ニューラルネットを用いた表面筋電位信号からの手の動作識別(一般,機械学習によるバイオデータマインニング,生命現象の非線形性,一般)
- 手先の運動速度に基づく視覚運動性手続き記憶のチャンク構造の推定(コミュニケーション支援,一般)
- 手先の運動速度に基づく視覚運動性手続き記憶のチャンク構造の推定(コミュニケーション支援,一般)
- デ-12 選択的不感化ニューラルネットを用いた表面筋電位信号からの手の動作推定(デモセッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 3ZN-4 選択的不感化ニューラルネットを用いた関数近似器による強化学習(情報爆発時代におけるビジュアルデザイン,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 3ZN-3 観察角度に依存しない物体認識のニューラルネットモデル(情報爆発時代におけるビジュアルデザイン,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 選択的不感化理論に基づく海馬ニューロン活動のモデル化
- 選択的不感化ニューラルネットの2変数関数の近似能力 (ニューロコンピューティング)
- 幼児教育現場におけるソーシャルロボット研究とその応用
- 「ソーシャルロボットと人間理解」特集について
- 選択的不感化ニューラルネットを用いた連続状態行動空間におけるQ学習(一般講演,機械学習によるバイオデータマインニング,一般)
- 選択的不感化ニューラルネットの2変数関数の近似能力(一般講演,機械学習によるバイオデータマインニング,一般)
- 階層型ニューラルネットの2変数関数近似能力の比較(バイオサイバネティックス,ニューロコンピューティング)
- Half-vs-Half法を適用した選択的不感化ニューラルネットによる筋電パターンの多クラス分類
- 2種類のTD誤差を用いた脳における状態価値の計算モデル
- 階層型ニューラルネットの2変数関数近似能力の比較
- Half-vs-Half法を適用した選択的不感化ニューラルネットによる筋電パターンの多クラス分類(一般,機械学習によるバイオデータマインニング,一般)
- 2種類のTD誤差を用いた脳における状態価値の計算モデル(一般,機械学習によるバイオデータマインニング,一般)
- ニューラルネットによるパターン分類におけるパターンコーディングの効果(合同企画セッション:バイオデータマイニング)