ロバスト強化学習
スポンサーリンク
概要
- 論文の詳細を見る
本論文では, 入力外乱やモデル誤差を考慮した強化学習法の提案を行う.強化学習では, シミュレーションによるオフライン学習や, 行動のオンラインプラニングなど, 環境や制御対象のダイナミクスモデルが重要な役割を果たす.しかし, 実際の環境とモデルとの間の誤差のために, 学習した制御器を実際の制御対象にそのまま利用すると, 望みの性能が得られない可能性がある.そこで, H無限大制御理論の考え方に基づき, 外乱生成器が最悪外乱を出力し, 行動生成器が最適制御を行う微分ゲームを考える.この問題は, 外乱による報酬の変化と, 外乱自体の大きさを考慮した評価関数のmin-max解を見つける問題として定式化できる.この知見を用いて, オンラインで評価関数の推定と最悪外乱, 最適制御の計算を行う手法を示す.提案する学習法を単振り子の振り上げ課題に適用し, 従来の強化学習では対応できないようなモデル誤差に対してロバストな制御ができることを示す.
- 社団法人電子情報通信学会の論文
- 2000-07-11
著者
関連論文
- 強化学習を用いたヒューマノイドロボットによる転倒回避ステップ動作の学習
- 動作認識における床反力情報の推定と見まね学習への適用(バイオサイバネティックス,ニューロコンピューティング)
- 経由点表現を用いた強化学習
- 個性を考慮した周期的全身運動の予測(パターン認識)
- 変分ベイズ法による自然方策勾配の推定法(一般, 脳・ヒューマンモデリング, 一般)
- 方策こう配法を用いた動的行動則の獲得 : 2足歩行運動への適用(画像認識,コンピュータビジョン)
- 動的行動則を用いた2足歩行の獲得(2足歩行ロボット1)
- 方策勾配法を用いた動的行動則の獲得 : 2足歩行運動への適用(「脳・認知科学」及び一般)
- 0719 ヒューマノイドとブレイン・マシン・インタフェース(OS41:人間とヒューマノイドの関連を考える)
- 歩行・姿勢リハビリテーションのための空電ハイブリッド式外骨格ロボットの提案
- マルチエージェント環境における共通なシンボルの生成(脳・ヒューマンモデリング2, 脳・ヒューマンモデリング, 一般)
- 他エージェントの行動予測を利用したマルチエージェント強化学習法
- 平均報酬の多様体に基づく方策勾配法
- 運動学習プリミティブを用いた2足歩行の学習および適応(2足歩行ロボット1)
- モデルベース強化学習を用いた2足歩行運動の獲得(2足歩行ロボット1)
- 神経振動子を用いた2足歩行運動の実験的検討(2足歩行ロボット1)
- 観測軌道を基にした運動の最適化起立運動, 歩行運動への適用
- [招待論文]観測軌道を基にした運動の最適化 : 起立運動,歩行運動への適用(PRMU&NCテーマセッション(3) : 模倣学習)(認識と学習,模倣学習)
- [招待論文]観測軌道を基にした運動の最適化 : 起立運動,歩行運動への適用(PRMU&NCテーマセッション(3) : 模倣学習)(認識と学習,模倣学習)
- 階層型強化学習を用いた3リンク2関節ロボットによる起立運動の獲得
- 強化学習と最適制御(「システム制御理論の新領域特集号」)
- ロバスト強化学習
- 強化学習を用いた高次元連続状態空間における系列運動学習 : 起き上がり運動の獲得
- 強化学習による起き上がり運動パターンの獲得
- 特集について
- 学生会員メーリングリスト(RSJ-Forum)
- 規範軌道の多様性を考慮した非線形力学系による運動記述の学習法 : ロボットによる見まね学習への応用(IBIS2010(情報論的学習理論ワークショップ))
- 複数報酬のもとでの階層強化学習
- 大脳基底核-強化学習モデルによる線条体神経細胞活動の記録と予測
- 強化学習と大脳基底核(運動学習)
- NC2000-48 複数モデルベース強化学習におけるモジュール間の評価割り付け
- 局所線形モデルに基づく状態分割を用いた階層強化学習
- ヒトと運動アシストロボットにおける共通の状態空間の抽出 : 外骨格ロボット制御への応用(IBIS2010(情報論的学習理論ワークショップ))
- 床反力情報とモーションキャプチャデータを用いた人間の動作認識
- 神経情報科学サマースクール報告
- 神経情報科学サマースクール(NISS)2003報告神経情報科学サマースクール2003経過報造
- NISSからOCNC, ASCONEへ
- 神経情報科学サマースクールNISS2003講義録 : 脳の局所回路の計算機構
- 神経情報科学サマースクールNISS2000報告
- 神経情報科学サマースクール NISS99 報告
- 複数の予測器と制御器による系列運動の識別と学習
- 行動学習系のメタパラメタ制御と神経修飾物質 (特集 最新 脳のモデルと数理)
- ロボットと脳科学 (特集:ロボット研究の最新動向)
- ヒト知性の計算神経科学
- NLP2000-28 / NC2000-22 ヒト知性の計算神経科学
- NLP2000-28 / NC2000-22 / HIP2000-16 ヒト知性の計算神経科学
- NLP2000-28 / NC2000-22 ヒト知性の計算神経科学
- 1A1-M09 強化学習を用いたステッピングによる転倒回避動作の学習(人間機械協調)
- 規範軌道の多様性を考慮した非線形力学系による運動記述の学習法 : ロボットによる見まね学習への応用
- ヒトと運動アシストロボットにおける共通の状態空間の抽出 : 外骨格ロボット制御への応用
- 高次元多重時系列データ解析のための正準多重整列法 (情報論的学習理論と機械学習)
- スタイル-位相適応に基づく周期運動の時空間同期 : 2足歩行運動への適用(バイオサイバネティックス,ニューロコンピューティング)
- 高次元多重時系列データ解析のための正準多重整列法(時系列解析,統計推理,データベース,一般)