自然 TD 学習 : 割引報酬における TD 誤差を利用する自然方策勾配に基づいた強化学習法
スポンサーリンク
概要
- 論文の詳細を見る
近年, 環境との相互作用を通じて学習する手法である強化学習が注目されている.パラメータ空間がリーマン構造であっても自然勾配は最急勾配方向を表すため, 自然勾配に基づく強化学習の方策勾配法である自然方策勾配法は特に強力なツールになる.しかし, 自然方策勾配法を実問題に適用するには必要となるサンプル数や逆行列の計算が問題となる.そこで本報告では, 実用的な自然方策勾配法として自然時間差分学習法(自然TD学習法)を提案する.これは目的関数が平均報酬に制限されるために多くのサンプル数が必要となる問題に対処し, 逆行列の計算を必要としない適応的な自然方策勾配法である.自然TD学習では状態価値関数のTD誤差を状態空間ではなく状態行動空間で定義する.この時, TD誤差はアドバンテージ関数をコードし, さらにTD誤差を近似したある線形近似器の重みが自然方策勾配を与えることを示す.2種のシミュレーション実験に自然TD学習を適用し, 有効性を議論する.
- 2005-03-22
著者
-
銅谷 賢治
沖縄大学院大学先行研究プロジェクト
-
森村 哲郎
沖縄大学院大学先行的研究事業神経計算ユニット
-
内部 英治
沖縄大学院大学先行的研究事業神経計算ユニット
-
銅谷 賢治
奈良先端科学技術大学院大学情報科学研究科:沖縄科学技術研究基盤整備機構
-
内部 英治
沖縄科学技術研究基盤整備機構
-
森村 哲郎
奈良先端科学技術大学院大学:oist
関連論文
- モデルフリーとモデルベース戦略の課題依存的な選択(BCI/BMIとその周辺)
- 感覚情報の能動的低次元化による強化学習(機械学習によるバイオデータマインニング,一般)
- 方策勾配に基づく効率の良い課題非依存な強化学習法(創発システム,人工知能分野における博士論文)
- 自由エネルギーを用いた強化学習による状態のタスク依存な集団符号化(一般,機械学習によるバイオデータマインニング・生命現象の非線形性,一般)
- 自然方策こう配法 : 平均報酬の自然こう配に基づく方策探索(人工知能,認知科学)
- 強化学習 : 理論と応用
- 強化学習の基礎理論と応用
- 変分ベイズ法による自然方策勾配の推定法(一般, 脳・ヒューマンモデリング, 一般)
- センサフィードバックを用いたCPG制御における環境ダイナミクスと観測の不確定性の影響
- 線条体における入力タイミングに依存するカルシウム応答モデル
- 遅延を伴う確率的報酬獲得課題におけるヒトの意思決定に関する研究(一般セッション3)
- 自然 TD 学習 : 割引報酬における TD 誤差を利用する自然方策勾配に基づいた強化学習法
- 強化学習エージェントによる協調行動とコミュニケーションの創発(シンポジウム特集)
- 強化学習と最適制御(「システム制御理論の新領域特集号」)
- 線条体シナプス可塑性の分子機構のシミュレーション研究(セッション3:『バイオモデリング,シミュレーション』)
- 生化学反応系のためのベイズ的システム同定法(機械学習によるバイオデータマイニング)
- 生化学反応系のためのベイズ的システム同定法(機械学習によるバイオデータマインニング)
- 混合カルマンフィルタによる隠れ状態推定法 : Cyber Rodentの自己位置同定への応用
- Max-Min Actor-Criticによる複数報酬課題の強化学習(人工知能,認知科学)
- 行動学習データの強化学習モデルによる解析とその応用
- 行動学習データの強化学習モデルによる解析とその応用(コミュニケーション支援及び一般)
- 行動学習データの強化学習モデルによる解析とその応用(コミュニケーション支援及び一般)
- 近傍成分分析による行動指向的状態表現の獲得
- 複数の報酬によって与えられる拘束のもとでの強化学習(「機械学習によるバイオデータマインニング」及び「一般」)
- 複数の価値関数を用いた多目的強化学習
- 2A1-N-044 構造の異なる複数の学習器の相互作用を利用した強化学習システム(認知ロボティクス1,生活を支援するロボメカ技術のメガインテグレーション)
- 複数報酬のもとでの階層強化学習
- 淡蒼球内節/黒質網様部の強化学習による確率的行動選択(一般)(ニューロインフォーマティックスとは何か)
- 淡蒼球内節/黒質網様部の強化学習による確率的行動選択
- 大脳基底核-強化学習モデルによる線条体神経細胞活動の記録と予測
- 重点サンプリングを用いた複数強化学習器の同時学習
- 行動決定系列からの学習系の内部状態/パラメータ系列の推定
- 強化学習と大脳基底核(運動学習)
- サイバーローデントプロジェクト
- 沖縄計算神経科学コース(Okinawa Computational Neuroscience Course)経過報告
- 意思決定と行動学習の数理モデル (特集 学習と記憶--基礎と臨床)
- 神経スパイク列からのモデルベースシナプス同定法 (ニューロコンピューティング)
- 線形ベルマン方程式に基づくロボット制御 : システム同定と指数価値関数近似
- 神経スパイク列からのモデルベースシナプス同定法(合同企画セッション:バイオデータマイニング,機械学習によるバイオデータマインニング,一般)
- 制限付きボルツマンマシンとエコーステートネットワークによる部分観測マルコフ決定問題の解法(一般講演,機械学習によるバイオデータマインニング,一般)
- 運動-視覚ダイナミクス学習と線形ベルマン方程式によるロボット制御
- 運動-視覚ダイナミクス学習と線形ベルマン方程式によるロボット制御 (ニューロコンピューティング)
- 自由エネルギーを用いた強化学習による状態のタスク依存な集団符号化
- 運動-視覚ダイナミクス学習と線形ベルマン方程式によるロボット制御(一般,機械学習によるバイオデータマインニング,一般)