強化学習における適応的状態空間構成法

概要

論文の詳細を見る
For the application of reinforcement learning to real-world problems, an internal state space has to be constructed from a high dimensional observation space. The algorithm presented here constructs the internal state space during the course of learning desirable actions, and assigns local basis functions adaptively depending on the task requirement. The internal state space initially has only one basis function over the entire observation space, and that basis is eventually divided into smaller ones due to the statistical property of locally weighted temporal difference error. The algorithm was applied to an autonomous robot collision avoidance problem, and the validity of the algorithm was evaluated to show, for instance, the need of a smaller number of basis functions in comparison to other method.
1999-09-05

著者

大森隆司
東京農工大学生物システム応用科学研究科/新技術事業団さきがけ研究21
鮫島和行
東京農工大学大学院工学研究科

関連論文

短-中-長期記憶形成モデルにおける海馬周辺領野のDynamicsについて
会話的相互作用から得られる報酬にもとづいたインクリメンタルな単語概念の獲得
会話的相互作用からえられる報酬にもとづいたインクリメンタルな単語概念の獲得
連続時間ダイナミクスをもつ連想記憶によるマルチモーダル情報処理
状況に依存してマルチモーダル情報の選択が可能な連想認識モデルによる音声認識
遅延見本あわせ課題の脳内プロセスの Neural Network モデル
脳におけるシンボル処理のモデルとその計算能力について
特集「意図研究のスペクトル」にあたって
行動学習における負の強化の検討
脳内報酬情報処理に及ぼす知覚的暖昧性の影響
知覚確率が報酬予測誤差に及ぼす影響
MOSAICモデルにより環境を抽象化する階層型強化学習(バイオサイバネティックス,ニューロコンピューティング)
複数の状態予測と報酬予測モデルによる強化学習と行動目標の推定(バイオサイバネティックス,ニューロコンピューティング)
ダイナミクスの線形性に基づいて状態空間を分割する階層型強化学習
遅延を伴う確率的報酬獲得課題におけるヒトの意思決定に関する研究(一般セッション3)
連続信号からの離散地図の自己組織化と類似探索に基づく移動ロボットの行動計画の研究
OB-06 ヒトにおける報酬関連脳活動と知覚的曖昧性(日本動物心理学会第68回大会発表要旨)
階層的記憶のモデルとニューラルネットワーク
強化学習と最適制御(「システム制御理論の新領域特集号」)
Matchable状況分解に基づくMulti-module強化学習による移動ロボットの経路探索
ネットワーク分散型移動ロボット実験システム
移動ロボット実験用システム
行動学習データの強化学習モデルによる解析とその応用
行動学習データの強化学習モデルによる解析とその応用(コミュニケーション支援及び一般)
行動学習データの強化学習モデルによる解析とその応用(コミュニケーション支援及び一般)
モジュール強化学習と意図(意図研究のスペクトル)
淡蒼球内節/黒質網様部の強化学習による確率的行動選択(一般)(ニューロインフォーマティックスとは何か)
淡蒼球内節/黒質網様部の強化学習による確率的行動選択
大脳基底核-強化学習モデルによる線条体神経細胞活動の記録と予測
行動決定系列からの学習系の内部状態/パラメータ系列の推定
複数の状態予測と報酬予測モデルによる強化学習と行動目標の推定
強化学習と大脳基底核(運動学習)
複数の予測モデルを用いた強化学習による非線形制御
強化学習MOSAIC : 予測性によるシンボル化と見まね学習
NC2000-48 複数モデルベース強化学習におけるモジュール間の評価割り付け
局所線形モデルに基づく状態分割を用いた階層強化学習
強化学習における適応的状態空間構成法
SD-2-4 ネオコグニトロンを用いた画像理解システムのパラメータチューニング
大規模並列計算システム上での画像理解に向けてのネオコグニトロンの性能予測
モジュール競合による運動パターンのシンボル化と見まね学習
一般化Hopfieldモデルについて
ノイズ駆動型神経回路網モデルにおける時間パターン生成の解析
選択的注意と記号知識とハイブリッドによる重なり図形の領域分割
強化学習における分割による自律的状態空間構成法
学習時定数の違いによっておきる海馬と新皮質の記憶における機能分離のモデル
神経回路網国際会議
脳の認知過程としての記憶モデル(ニューラルネットワークと認知科学)
動的n-k最近接近傍法による画像のスムージング
PATON:動的神経回路網モデルによる概念学習
エッジの向き, 運動方向, 速さを自己組織的に抽出する視覚系モデル
記号とパターンの統合による画像理解のための一方式
記号とパターンの統合による画像理解のための一方式 : パターン的な知識と記号的な知識の相互変換
海馬閉回路における抑制性細胞の役割
記憶モデルPATONによる視覚探索のシミュレーション
PATON : 文脈依存性を表現する動的神経回路網モデル
第5回神経情報処理国際会議(ICONIP'98-Kitakyushu)
A robot with a learning visual information processing.

強化学習における適応的状態空間構成法

スポンサーリンク

概要

著者

関連論文

スポンサーリンク