重点サンプリングを用いた複数強化学習器の同時学習
スポンサーリンク
概要
- 論文の詳細を見る
一般に学習系において,その複雑さは学習の探索空間を規定する.パラメタが少なく内部変数を持たない単純な学習器は性能は悪いがすぱやく学習でき,逆に多くのパラメータや内部変数を持つ学習器は最終的には性能は良いが,学習に時間を要する.どのようなパラメタや内部変数をどの程度使用すべきかといったことを事前に決定するのは困難であり,むしろ異なる数のパラメタや内部変数を持つ複数の学習器を問題に応じて使い分けるべきである.本研究では,複数の学習器を持つ行動系で選ぱれた単一の学習器の行動方策によって得られた経験から,選択されていない他の学習器も並行して学習を行い,かつ全ての学習器の行動方策を正しく評価し選択する枠組を重点サンプリング法の理論的枠組をもとに定式化する.これにより,単一のハードウエアに対し複数の学習器が協調・競合的に学習を行い,全体として短時間で高い性能を獲得できる.一部の状態変数が観測できない倒立振子の問題に提案手法を適用し,有効性を検証する.
- 2003-03-12
著者
-
銅谷 賢治
沖縄科学技術研究基盤整備機構
-
銅谷 賢治
独立行政法人沖縄科学技術研究基盤整備機構沖縄大学院大学先行的研究事業
-
銅谷 賢治
Atr人間情報科学研究所
-
内部 英治
沖縄科学技術研究基盤整備機構
-
内部 英治
Atr人間情報科学研究所第三研究室
関連論文
- モデルフリーとモデルベース戦略の課題依存的な選択(BCI/BMIとその周辺)
- 感覚情報の能動的低次元化による強化学習(機械学習によるバイオデータマインニング,一般)
- 自然方策こう配法 : 平均報酬の自然こう配に基づく方策探索(人工知能,認知科学)
- 情動・行動の脳内機構に関するfMRI研究 : うつ病の病態解明に向けて(情動・行動の脳内機序に関する研究の進展)(2004年/第45回日本心身医学総会/北九州)
- 空間的情報を含むマルコフ決定課題を用いた長期と短期の報酬予測に伴う脳活動のfMRI測定
- 短期と長期の報酬予測に伴う脳活動のfMRI測定
- センサフィードバックを用いたCPG制御における環境ダイナミクスと観測の不確定性の影響
- 線条体における入力タイミングに依存するカルシウム応答モデル
- 自然 TD 学習 : 割引報酬における TD 誤差を利用する自然方策勾配に基づいた強化学習法
- 生命科学と制御 : 《第13回》座談会「制御と生命科学」
- 強化学習エージェントによる協調行動とコミュニケーションの創発(シンポジウム特集)
- 複数の学習するロボットの存在する環境における協調行動獲得のための状態空間の構成
- 行動獲得過程における視覚情報の自律的構造化 : 分節と統合
- 線条体シナプス可塑性の分子機構のシミュレーション研究(セッション3:『バイオモデリング,シミュレーション』)
- 生化学反応系のためのベイズ的システム同定法(機械学習によるバイオデータマイニング)
- 生化学反応系のためのベイズ的システム同定法(機械学習によるバイオデータマインニング)
- 生命科学と制御 : 《第12回》脳の目的関数とは何か
- Max-Min Actor-Criticによる複数報酬課題の強化学習(人工知能,認知科学)
- 行動学習データの強化学習モデルによる解析とその応用
- 行動学習データの強化学習モデルによる解析とその応用(コミュニケーション支援及び一般)
- 行動学習データの強化学習モデルによる解析とその応用(コミュニケーション支援及び一般)
- 近傍成分分析による行動指向的状態表現の獲得
- 複数の報酬によって与えられる拘束のもとでの強化学習(「機械学習によるバイオデータマインニング」及び「一般」)
- 複数の価値関数を用いた多目的強化学習
- 2A1-N-044 構造の異なる複数の学習器の相互作用を利用した強化学習システム(認知ロボティクス1,生活を支援するロボメカ技術のメガインテグレーション)
- 複数報酬のもとでの階層強化学習
- 重点サンプリングを用いた複数強化学習器の同時学習
- 行動決定系列からの学習系の内部状態/パラメータ系列の推定
- 強化学習とメタ学習の脳内機構 : 大脳基底核と神経修飾物資系
- 強化学習の計算論 (強化学習とその周辺)
- 共進化による協調 : ロボカップにおける協調行動の獲得
- マルチエージェント環境における行動学習のための部分空間同定法による状態空間の構成
- マルチエージェント環境における部分空間同定法を用いたエージェントの判別と行動理解 : 分散協調視覚システムにおける対象の行動理解法
- 競合エージェントの存在する環境での視覚に基づく強化学習によるロボットの行動獲得
- サイバーローデントプロジェクト
- 報酬の予測に基づくロボットの学習と脳のモデル (「1997年情報学シンポジウム」プログラム--人と情報学の調和をめざして) -- (生命体と情報処理1)
- 小鳥の歌の学習 (特集 生命システムの多様性--モデル化による理解)
- 線形ベルマン方程式に基づくロボット制御 : システム同定と指数価値関数近似
- 運動-視覚ダイナミクス学習と線形ベルマン方程式によるロボット制御
- 運動-視覚ダイナミクス学習と線形ベルマン方程式によるロボット制御 (ニューロコンピューティング)
- 神経情報科学サマースクール(NISS)2002報告 : 神経情報科学サマースクール2002概況
- NIPS^*94報 告
- 運動-視覚ダイナミクス学習と線形ベルマン方程式によるロボット制御(一般,機械学習によるバイオデータマインニング,一般)