ロバスト強化学習

概要

論文の詳細を見る
本論文では, 入力外乱やモデル誤差を考慮した強化学習法の提案を行う.強化学習では, シミュレーションによるオフライン学習や, 行動のオンラインプラニングなど, 環境や制御対象のダイナミクスモデルが重要な役割を果たす.しかし, 実際の環境とモデルとの間の誤差のために, 学習した制御器を実際の制御対象にそのまま利用すると, 望みの性能が得られない可能性がある.そこで, H無限大制御理論の考え方に基づき, 外乱生成器が最悪外乱を出力し, 行動生成器が最適制御を行う微分ゲームを考える.この問題は, 外乱による報酬の変化と, 外乱自体の大きさを考慮した評価関数のmin-max解を見つける問題として定式化できる.この知見を用いて, オンラインで評価関数の推定と最悪外乱, 最適制御の計算を行う手法を示す.提案する学習法を単振り子の振り上げ課題に適用し, 従来の強化学習では対応できないようなモデル誤差に対してロバストな制御ができることを示す.
社団法人電子情報通信学会の論文
2000-07-11