局所線形モデルに基づく状態分割を用いた階層強化学習
スポンサーリンク
概要
- 論文の詳細を見る
近年、モジュール型のネットワークが注目され強化学習に対してもタスクを分割、統合することによって環境への適応度を高めようとする階層強化学習のアプローチが盛んに行われている。我々はこれまで局所的な予測モデルの競合によってタスクを分割し、それらに対応するコントローラを強化学習によって構成する手法multiple model based reinforcement learning(MMRL)を提案してきた[2]。しかし、従来の手法では各モジュールが学習する局所報酬モデルをもとにした局所最適な評価関数にもとづいて制御を行っており、各モジュール間の遷移により、それらをつなぎ合わせた時に、グローバルに最適な行動が実現されるという保証は無かった。本報告では、各モジュールの評価関数とコントローラを、局所的に得られる報酬のみでなく、遷移した先のモジュールの評価関数も考慮にいれることによってグローバルに最適な評価関数と制御則を学習する手法を提案する。本手法の有効性を確認するために、非線形制御問題であるトルクを制限された単振子の振り上げ問題を取り上げ、計算機実験を行い、従来の非モジュール型の方式より高速かつロバストな学習が可能なことを示す。
- 2000-03-13
著者
-
川人 光男
科学技術振興事業団erato川人学習動態脳プロジェクト:atr人間情報通信研究所
-
銅谷 賢治
奈良先端科学技術大学院大学:atr脳情報研究所:沖縄新大学院大学先行的研究事業神経計算プロジェクト
-
鮫島 和行
科学技術振興事業団 ERATO川人学習動態脳プロジェクト
-
川人 光男
(株)国際電気通信基礎技術研究所 脳情報研究所
-
鮫島 和行
東京農工大学大学院工学研究科
-
銅谷 賢治
国際電気通信基礎技術研究所
-
川人 光男
科学技術振興事業団 川人学習動態脳プロジェクト : Atr人間情報通信研究所
関連論文
- 脳磁図逆問題における複数のアーチファクト源と脳内電流分布の同時推定法(バイオサイバネティックス,ニューロコンピューティング)
- 比較的速い運動におけるフィードフォワードインピーダンス制御による精度の向上(バイオサイバネティックス,ニューロコンピューティング)
- 脳活動における多重内部モデルの再構成(バイオサイバネティックス,ニューロコンピューティング)
- 3次元ヒト腕運動における手先軌道・腕姿勢の予測規範の検討
- タスク最適化とスティフネスの選択(統計的学習理論及び一般)
- 多関節到達運動における運動学習モデルの定性的解析 : TOPSモデル
- 運動指令の大きさに依存した雑音のもとでの最大タスク達成軌道生成モデル
- 不完全な内部モデル表現形式による手先軌道予測の比較検討
- Euler-Poisson方程式を用いた指令トルク変化最小軌道生成
- 複数の変更された環境における到達運動の学習 : 内部モデルの多重性の検証
- 不完全な逆ダイナミックスモデルによる制御での手先軌道の特徴の説明
- 不完全な逆ダイナミクスモデルによる制御での手先軌道の特徴の説明
- 複数のノイズ源と大脳皮質の同時電流推定によるMEGアーチファクト除去(一般,機械学習によるバイオデータマインニング・生命現象の非線形性,一般)
- 経由点到達運動の位置分散は軌道計画・実行の逐次モデルを支持する(バイオサイバネティックス,ニューロコンピューティング)
- fMRI/MEG統合解析による心的な視標運動追跡に関わる皮質電流源の推定(一般,ベイズ情報処理及び一般)
- MEGとEOGを用いた眼球と大脳皮質の同時電流源推定によるMEG眼球アーチファクト除去(一般, 脳・ヒューマンモデリング, 一般)
- 眼球と大脳皮質の同時電流源推定による MEG 眼球アーチファクト除去
- サイボーグ医療の未来像
- 手指筋出力と運動野活動との関係 : NIRS と fMRI による比較
- 道具使用イメージ時の小脳活動 : fMRI研究(ヒューマンコミュニケーション)
- 二つの粘性力場への同時適応と切換(バイオサイバネティックス、ニューロコンピューティング)
- 道具使用時の脳活動量と言語課題時に現れる脳活動量の相関関係(「脳・認知科学」及び一般)
- 複数の粘性力場に対する効果的な学習法の検討(「脳・認知科学」及び一般)
- 効果器の変化に対するヒトの適応 : 力制御課題中の筋へ電気刺激を外乱として用いて
- 速度依存力場と位置依存力場に対する内部モデルの独立性 : 多重内部モデルの検証(バイオサイバネティックス, ニューロコンピューティング)
- 効果器間協調における順モデル使用の可能性 : ヒトの把持力負荷力結合モデルの仮説の検討(バイオサイバネティックス, ニューロコンピューティング)
- 複数の粘性力場に対する多重内部モデルの獲得とそのスイッチング
- ヒトの効果器間協調における順モデル使用の妥当性
- 小脳単純スパイクはサル上肢運動のダイナミクスを表現するか?
- ヒト円滑性追跡眼球運動における非周期視標運動の予測と学習(「脳・認知科学」及び一般)
- 局所回路間の振動位相変化による相互作用の制御
- サル側頭葉顔細胞のVB法による混合正規分布解析
- サル側頭葉の顔細胞の集団ダイナミクス : MDSによる解析と連想記憶回路によるモデル化
- 登上線維入力が小脳プルキンエ細胞の活動に与える影響(脳・ヒューマンモデリング1, 脳・ヒューマンモデリング, 一般)
- 複数の粘性力場に対する多重内部モデルの獲得
- 複数の粘性力場に対する多重内部モデルの獲得に関する考察
- 脳神経系研究のためのヒューマノイドロボット(ヒューマノイドロボット)
- Euler-Poisson方程式を用いた指令トルク変化最小軌道生成
- 複数の粘性力場に対する多重内部モデルの獲得
- II-E-24KM 脳卒中片麻痺上肢のフィードフォワード運動訓練 : 訓練機器の開発とその試用
- 小脳皮質のシナプス可塑性モデルに基づくサルの水平方向VOR適応のシミュレーション
- ヒト大脳皮質における円滑性追跡眼球運動のための視標運動予測に関連する領域の機能的同定
- MST野細胞集団の巡回神経結合に基づく円滑性追跡眼球運動モデル
- 円滑性追跡眼球運動のモデル : ヒューマノイド研究から脳科学へ
- ポピュレーション符号から発火率符号への学習による変換 : 円滑性追跡眼球運動の神経表現
- MST野の細胞集団ダイナミクスを含む円滑性追跡眼球運動モデルとその計算理論
- ベイズフィルタによる円滑性追跡眼球運動のモデル化
- プロジェクトの概要とロボット研究
- MST野のポピュレーション符号化と神経場モデルによる, 円滑性追跡眼球運動のシミュレーション
- 視覚ターゲットのダイナミクス学習に基づく円滑性追跡眼球運動とそのヒューマノイドへの実装
- 作業レベルのロボット学習のための見まねによる教示
- 変分ベイズ法による自然方策勾配の推定法(一般, 脳・ヒューマンモデリング, 一般)
- 方策こう配法を用いた動的行動則の獲得 : 2足歩行運動への適用(画像認識,コンピュータビジョン)
- 動的行動則を用いた2足歩行の獲得(2足歩行ロボット1)
- 方策勾配法を用いた動的行動則の獲得 : 2足歩行運動への適用(「脳・認知科学」及び一般)
- 拡張結合混合モデルを用いた脳活動解析
- 小脳プルキンエ細胞への入力タイミングをCa^2+濃度に変換するシグナル伝達のシミュレーション
- 新しい道具の使用時の脳活動に関する検討(ヒューマン情報処理及び一般)(ヒューマンコミュニケーショングループ(HCG)大会)
- 5)エッジ情報を用いた陰影からの3次元形状推定(視聴覚技術研究会)
- MOSAICモデルにより環境を抽象化する階層型強化学習(バイオサイバネティックス,ニューロコンピューティング)
- マルチエージェント環境における共通なシンボルの生成(脳・ヒューマンモデリング2, 脳・ヒューマンモデリング, 一般)
- 複数の状態予測と報酬予測モデルによる強化学習と行動目標の推定(バイオサイバネティックス,ニューロコンピューティング)
- 教示者の行動目標を推定する見まね学習
- 教示者の行動目標を推定する見まね学習(PRMU&NCテーマセッション(4) : 模倣学習)(認識と学習,模倣学習)
- 教示者の行動目標を推定する見まね学習(PRMU&NCテーマセッション(4) : 模倣学習)(認識と学習,模倣学習)
- ダイナミクスの線形性に基づいて状態空間を分割する階層型強化学習
- 奥行補完の時空間特性
- 奥行き知覚における視覚的充填のダイナミクス
- 輪郭運動方向の計算における充填過程と大局的バインディング
- 輪郭運動方向の計算における充填過程と大局的バインディング
- 視覚系は緩和計算をもちいているか?
- 動く輪郭の速度知覚 : 視覚系は繰り返し計算を用いているか
- 変分法的ベイズ推定を用いた相互情報量の推定
- ヒトの把持力負荷力結合モデルの仮説の検討
- 位相を隠れ変数として持つ領域ベース結合MRFモデル
- 道具使用に関わる大脳-小脳機能的結合 : fMRIによる計測
- 強化学習と最適制御(「システム制御理論の新領域特集号」)
- 3次元ヒト腕運動における軌道計画規範の比較検討
- 複数の状態予測と報酬予測モデルによる強化学習と行動目標の推定
- 強化学習と大脳基底核(運動学習)
- 複数の予測モデルを用いた強化学習による非線形制御
- 強化学習MOSAIC : 予測性によるシンボル化と見まね学習
- NC2000-48 複数モデルベース強化学習におけるモジュール間の評価割り付け
- 局所線形モデルに基づく状態分割を用いた階層強化学習
- モジュール競合による運動パターンのシンボル化と見まね学習
- 計算神経科学の挑戦〔含 討論〕 (特集 ヒト知性の脳科学はどこまで可能か) -- (討論 脳と言語と心の科学--その研究アプローチを探る)
- ヒト知性の計算神経科学(6:最終回)ヒトの知性に計算理論はどこまで迫れるか
- ヒト知性の計算神経科学(第5回その2)モザイクの拡張とコミュニケーション
- ヒト知性の計算神経科学(第5回その1)モザイクの拡張とコミュニケーション
- 複数の予測器と制御器による系列運動の識別と学習
- 序 (特集 認知神経科学と精神医学--イメージングと計算論)
- 小脳内部モデルとモザイクの計算論的神経科学
- ヒト知性の計算神経科学
- NLP2000-28 / NC2000-22 ヒト知性の計算神経科学
- NLP2000-28 / NC2000-22 / HIP2000-16 ヒト知性の計算神経科学
- NLP2000-28 / NC2000-22 ヒト知性の計算神経科学
- ヒト知性の計算神経科学(4)多重順逆対モデル(モザイク)--その情報処理と可能性
- ヒト知性の計算神経科学(3)小脳、大脳基底核、大脳皮質の機能分化と統合
- ヒト知性の計算神経科学(第2回)小脳が獲得する内部モデル
- ヒト知性の計算神経科学(1)言語に迫るための条件