確率的連続行動の強化学習 : 直交関数展開による確率密度関数の近似
スポンサーリンク
概要
- 論文の詳細を見る
本報告では, 連続行動連続状態のMarkov決定過程により記述された環境において, 強化学習の一手法であるactor-criticにより, 任意の確率密度関数で表現された最適な方策を決定する方法を提案する.連続行動連続状態のactor-criticにおける方策は, 行動の確率密度関数に従って行動を確率的に決定することにより実現される.そのため, 行動の確率密度関数を学習するには, 確率密度関数を近似的に表す関数近似器が必要となる.近似精度と汎化能力に優れた関数近似は, 直交関数系を基底として用いることにより実現できる.しかしながら, 確率密度関数は正値であるため, 実数空間における直交関数系で展開できないという問題がある.本報告では, 複素正規直交関数系で展開された波動関数の積で確率密度関数を近似する方法を提案する.これにより, 任意の確率密度関数で表現された方策を高い精度で実現できることを示す.
- 2005-07-18
著者
-
佐藤 仁樹
公立はこだて未来大学システム情報科学部
-
佐藤 仁樹
公立はこだて未来大学システム情報科学部情報アーキテクチャ学科
-
佐藤 仁樹
公立はこだて未来大学システム情報科学研究科
-
佐藤 仁樹
公立はこだて未来大学
-
佐藤 仁樹
現在,公立はこだて未来大学システム情報科学研究科
関連論文
- Schrodinger-type equation for nonlinear optimization and its application to global optimization (非線形問題)
- モーメントベクトル方程式に基づく多粒子系の解析
- モーメントベクトル空間における空間埋め込み方程式を用いた高次元非線形システムの解析
- 強化学習を用いた高次元非線形時系列予測
- 非線形最適化に関するシュレディンガー型方程式と大域的最適化への応用
- 非線形方程式の近似および統計量の解析 : モーメントベクトル方程式に基づく方法
- 線形ベクトル空間におけるロジスティック写像の統計解析
- 高次元行動空間における強化学習 : 主成分分析による行動空間圧縮(非線形制御,一般)
- 強化学習に基づく非線形アプローチによるロバストルーチング
- 関数近似のための特徴空間の構築と強化学習への応用(一般,制御システムとダイナミックス)
- 関数近似のための特徴空間の構築と強化学習への応用
- 高次元連続状態空間における強化学習 : 多変量解析による状態空間の圧縮
- 確率的連続行動の強化学習 : 直交関数展開による確率密度関数の近似
- 波動係数方程式に基づく大域的最適化(一般,機械学習によるバイオデータマインニング・生命現象の非線形性,一般)
- リアルタイム可変レート動画通信システムの符号化パラメータ制御(画像)
- インターネットにおける非線形フィードバック制御の近似解析
- インターネットにおける非線形フィードバック制御の近似解析
- モーメントベクトル方程式の固有値解析に基づく大域結合写像の構造解析(一般及び雑音を有効利用する神経系やそのモデル)
- モーメントベクトル方程式の固有値解析に基づく大域結合写像の構造解析(一般及び雑音を有効利用する神経系やそのモデル)
- 報酬を考慮した主成分分析を用いた雑音環境下での波形認識(一般及び雑音を有効利用する神経系やそのモデル)
- 報酬を考慮した主成分分析を用いた雑音環境下での波形認識(一般及び雑音を有効利用する神経系やそのモデル)
- 画像データの学習クラスタリング
- 画像データの学習クラスタリング
- 遺伝的アルゴリズムを用いた基底関数構築と非線形時系列予測
- 大3-1 オープンな学習環境における活動経験と管理システムの効果(教授・学習,口頭発表)
- 非線形時系列予測のための基底関数構築(テーマセッション,大規模データベースとパターン認識)