連続力学システムに対する強化学習の一手法
スポンサーリンク
概要
- 論文の詳細を見る
本報告では, 状態および行動の空間が連続である力学システムに対する新しい強化学習法を提案する.我々の強化学習法はactor-criticアーキテクチャを用いて学習が行われる.criticは現在の状態と行動の組に対する将来の期待報酬(Q関数)を近似する.actorはQ関数値が大きい行動ほど高い確率で選択されるような確率的行動関数を近似する.actorとcriticはともに正規化ガウス関数ネットワークによって近似され, オンラインEMアルゴリズムを用いて学習が行われる.本手法が少ない試行回数から良い制御を獲得できることを2つの最適制御問題に対する計算機シミュレーションの結果により示す.
- 2000-03-13
著者
-
石井 信
奈良先端科学技術大学院大学
-
佐藤 雅昭
国際電気通信基礎技術研究所脳情報研究所
-
吉本 潤一郎
科学技術振興事業団 Crest 銅谷プロジェクト
-
吉本 潤一郎
奈良先端科学技術大学院大学情報科学研究科
-
佐藤 雅昭
ATR人間情報科学研究所
-
佐藤 雅昭
Atr脳情報科学研究所
-
吉本 潤一郎
科学技術振興機構沖縄新大学院大学先行的研究事業
関連論文
- 混合 von Mises-Fisher 分布の変分ベイズ推定について
- 内部状態を用いた強化学習によるマルチエージェント系における協調行動の獲得(機械学習によるバイオデータマインニング,一般)
- 指数族行列因子化の状態空間モデルへの拡張と時系列関係データ解析への応用
- POMDP課題遂行中のヒトの情報処理過程の隠れマルコフモデリング(一般)
- 階層的パーティクルフィルタのための適応的サンプリング分布推定とその剛体の実時間姿勢推定への応用
- 移動ロボットにおける環境同定のための統計的アプローチ
- 同時発音の相関を考慮した確率モデルによる音楽の和声推定
- エピソードタスクにおける方策オフ型LSTD(λ)法とその収束性(機械学習によるバイオデータマインニング,一般)
- 線スペクトル対を用いた楽器分類
- 隠れマルコフ/セミマルコフモデルに基づき原信号を動的に切り替える非定常独立成分分析
- スムースギャップ事前分布をもちいた超解像
- Bayesian noisy ICA for source switching environments
- 価値関数の分解による高速な強化学習法
- 非線形ノイズ付き独立成分分析
- 学習によるproduct codeの設計(情報理論)
- NC2000-50 サポートベクターマシンによるminimax戦略の獲得
- アレイ比較ゲノムデータ正規化手法Combfitについて(セッション1:『機械学習によるバイオデータマインニング』)
- ハイブリット型学習による隠れ素子付き連想記憶モデル
- Poisson過程に従うスパイク列に対するスパイキングニューロンモデルの応答
- 部分観測カードゲームのためのモデル同定型強化学習(バイオサイバネティックス, ニューロコンピューティング)
- 自己回帰モデルを用いた脳波・筋電信号ネットワークの同定
- cDNA microarray を用いた肝細胞癌の遺伝子解析 : 予後予測を含めた臨床応用への試み(第105回日本外科学会定期学術集会)
- CPG-Actor-Critic法によるミミズ型ロボットの推進運動の獲得
- WS-9-05 遺伝子診断(PCR-array)による肝細胞癌術後5-FU/IFN-α併用療法の効果予測(ワークショップ9 : 分子生物・遺伝子研究の消化器癌補助療法への応用)
- 二値分類器集合による遺伝子発現プロファイルからの癌サブクラス識別法(バイオインフォマティックス(1))
- 線形ダイナミカルシステムモデルの変分ベイズ推定による遺伝子発現時系列のシステム同定
- 二値分類器組み合わせの確率モデルに基づく多クラスパターン識別
- 相手モデル学習を取り入れたマルチエージェント系の強化学習法
- 相手学習に基づくマルチエージェントゲームの強化学習
- 確率的逐次因子分解による単眼画像時系列からの三次元構造復元(ベイズ情報処理,ベイズ情報処理及び一般)
- 適応的サンプリングによる階層モデル化された対象の効率的状態推定
- 強化学習 : 理論と応用
- 強化学習の基礎理論と応用
- 内部状態の報酬に基づいた推定を行う強化学習法
- 筋電信号に基づいた示指によるピアノ打鍵時の脱力度評価
- 神経振動子ネットワークを用いたリズム運動に対する強化学習法(バイオサイバネティックス,ニューロコンピューティング)
- 連続力学システムの自動制御のためのオンラインEM強化学習法^*
- オンライン変分ベイズ法による部分観測環境の同定と強化学習への応用
- ベイズ的主成分分析の事前分布ハイパーパラメータについて
- 変分法的ベイズ推定による混合主成分分析
- 神経振動子ネットワークを用いた強化学習法による歩行運動の獲得
- 前頭前野における隠れ状態推定と環境ダイナミクス同定の機能分離
- 階層化ルールを用いる際のヒト行動制御のイメージング研究
- モデル同定強化学習の脳型情報処理モデルとfMRI研究(「脳・認知科学」及び一般)
- 正規化ガウス関数ネットワークの変分法的ベイズ学習
- 変分法的オンラインベイズ学習による関数近似
- 統計的手法にもとづく強化学習と制御ルールの獲得
- 正規化ガウス関数ネットワーク, Mixture of expertsとEMアルゴリズム
- オンラインEMアルゴリズムによる動的な関数近似
- オンラインEMアルゴリズムによる動的な関数近似
- ユーザーの生体信号計測に基づいたロボットとの動的・協調的インタラクション(生体信号の計測と解析,一般)
- ニューラルネットワークによる2次割当て問題の一解法とそのダイナミックス
- アナログλ-optアルゴリズムを使った2次割当て問題の解法
- 座標変換を用いたカオス最適化手法
- 染色体異常に対する混合木モデルの紹介とその改良(遺伝子発現・ネットワーク)
- マルチエージェント環境におけるコミュニケーションの段階的創発(セッション : 社会システムと知能(エージェントモデルと意思決定), 「社会システムにおける知能」及び一般)
- マルチエージェント環境におけるコミュニケーションの段階的創発
- マルチエージェント環境におけるコミュニケーションの段階的創発(社会システムと知能(エージェントモデルと意思決定), 「社会システムにおける知能」及び一般)
- 排他的報酬環境における強化学習エージェントの進化
- 大脳皮質培養神経回路網における情報符号の刺激依存性
- アクチンフィラメントによる成長円錐の糸状仮足伸長メカニズム
- 混合カルマンフィルタによる隠れ状態推定法 : Cyber Rodentの自己位置同定への応用
- サンプル再利用型強化学習による準受動2足歩行ロボットの学習
- 強化学習と脳における報酬系の情報処理(脳化学2,数学者のための分子生物学入門-新しい数学を造ろう-)
- 部分観測環境での意思決定に必要な特徴空間の抽出(「機械学習によるバイオデータマインニング」及び「一般」)
- 重点サンプリングに基づくNatural Actor-Critic法による効果的なサンプルの再利用(人工知能,認知科学)
- モデル誤差を考慮した強化学習法による実ロボットの適応制御
- 方策勾配法による準受動歩行制御の学習
- 方策オフ型Natural Actor-Critic法
- 方策こう配法に基づく強化学習法と二足歩行運動制御への応用(バイオサイバネティックス, ニューロコンピューティング)
- 複数制御器の切換学習法による実アクロボットの制御(人工知能)
- 自然方策勾配法に基づくオフポリシー型強化学習法
- 二足歩行運動に対する方策勾配法に基づいた強化学習法
- 複数の制御器の系列学習法による非線形制御
- マルチエージェントカードゲームのための強化学習法の改良
- 確率的方策勾配法に基づくactor-critic法と連続システムの制御への応用
- 強化学習におけるexplorationとexploitationの制御
- オンラインEM強化学習法を用いた連続システムの自動制御
- 他エージェントの内部モデル推定を利用したマルチエージェント強化学習法
- オンラインEMアルゴリズムによる強化学習法のacrobot制御への応用
- 連続力学システムに対する強化学習の一手法
- 関数近似器を用いた連続マルチエージェント系の強化学習
- オンラインEMアルゴリズムを用いた強化学習法
- 変分ベイズ法による遺伝子発現データのクラスタリング
- PD-25-9 肝細胞癌術後5-FU/IFN-α併用療法の効果予測 : PCR-arrayによる遺伝子発現解析から
- PCR-arrayを利用した肝細胞癌の術後肝内転移再発の遺伝子診断
- PCR-arrayを利用した肝細胞癌の悪性度診断 : 術後早期残肝再発危険群の予測から
- 不確実環境における意思決定の計算モデル
- 2種の平滑化埋め込みを用いたニューラルネットによるカオス力学系の再構成
- 積分埋め込みを用いたニューラルネットによるカオス力学系の再構成
- オンラインEMアルゴリズムによるカオス力学系の学習と耐ノイズ性
- 正規化ガウス関数ネットワークとEMアルゴリズムによるカオス力学系再構成
- オンラインEMアルゴリズムを用いたカオス力学系の再構成
- 神経情報科学サマースクール報告
- 二値分類器組み合わせの確率モデルに基づく多クラスパターン識別
- 線形ダイナミカルシステムモデルの変分ベイズ推定による遺伝子発現時系列のシステム同定
- 多段階手続きによる日本語活字文字認識
- 学習ダイナミクスの制御と脳の物質機構(システムと生命総合特集号)
- 沖縄計算神経科学コース(Okinawa Computational Neuroscience Course)経過報告
- 神経情報科学サマースクール(NISS)2003報告神経情報科学サマースクール2003経過報造