適応的モデル複雑度に基づくモジュール強化学習
スポンサーリンク
概要
- 論文の詳細を見る
ロボット等を取り巻く実世界の環境は一般に非定常であり,最適制御は時々刻々と変化する.定常なマルコフ決定過程を仮定する強化学習に基づいて,このような非定常な制御法を学習することは困難である.近年,非定常環境を複数の定常環境の重ね合わせと仮定し,各環境を予測器-制御器対のモジュールを用いて近似する強化学習法が注目を集めている.この方法では,学習に用いるモジュールの数を学習前に決めておく必要があるが,モジュール数を不適切に選択すると,学習の遅延や制御の悪化が引き起こされる.そこで本研究では,学習と並行して適切なモジュール数の探索を行うモデルを提案する.計算機実験により,提案手法が従来手法よりも高速,かつ,安定した学習を実現できることを示す.
- 2009-03-04
著者
-
石井 信
京都大学
-
日栄 悠
奈良先端科学技術大学院大学
-
森 健
京都大学
-
森 健
京都大学大学院情報学研究科
-
石井 信
京都大学大学院情報学研究科システム科学専攻
-
石井 信
奈良先端科学技術大学院大学情報科学研究科
関連論文
- 複層マルコフ確率場を事前分布とする超解像法におけるハイパパラメータ推定(バイオサイバネティックス,ニューロコンピューティング)
- 脊椎動物の発生過程における分節時計の分子システム(生命現象,一般)
- 検定多重性とサンプル個性を利用した臨床ラベル関連遺伝子探索(学習によるバイオデータマインニング・生命現象の非線形性,機械学習によるバイオデータマインニング・生命現象の非線形性,一般)
- 検定多重性とサンプル個性を利用した臨床ラベル関連遺伝子探索(機械学習によるバイオデータマインニング・生命現象の非線形性,機械学習によるバイオデータマインニング・生命現象の非線形性,一般)
- 検定多重性とサンプル個性を利用した臨床ラベル関連遺伝子探索(3研究会合同企画セッション[1])
- 内部状態を用いた強化学習によるマルチエージェント系における協調行動の獲得(機械学習によるバイオデータマインニング,一般)
- 遮蔽物を含む画像からの超解像
- 適応的モデル複雑度に基づくモジュール強化学習
- 非定常環境における自己組織化強化学習(一般,機械学習によるバイオデータマインニング・生命現象の非線形性,一般)
- 多重検定におけるODP統計量の有効な推定
- 指数族行列因子化の状態空間モデルへの拡張と時系列関係データ解析への応用
- 他者の内部状態推定と行動予測を用いた意思決定モデル(機械学習,一般)
- 4.不確実性を手なずけるベイズ統計推測による画像超解像(ビジョンコンピューティングにおける確率的情報処理の展開)
- 平均場近似を用いたHelmholtz Machineの学習
- 24OP6-4 肝芽腫におけるアレイCGH・cDNAマイクロアレイ解析(ポスター 肝芽腫,第22回日本小児がん学会 第48回日本小児血液学会 第4回日本小児がん看護研究会 同時期開催)
- 24OP1-22 アレイCGHと発現マイクロアレイを組み合わせた神経芽腫の新しいリスク分類の試み(ポスター NBL(基礎),第22回日本小児がん学会 第48回日本小児血液学会 第4回日本小児がん看護研究会 同時期開催)
- 18.肝芽腫におけるアレイCGHの解析 : 予後診断チップの開発へ向けた試み(日本小児肝癌スタディグループ研究会2006,研究会)
- ADS-1-3 ディリクレ過程混合ガウス分布による画像拡大フィルタの学習(ADS-1.信号処理のための機械学習,シンポジウムセッション)
- セミパラメトリック統計学に基づく価値関数推定
- 同時発音の相関を考慮した確率モデルによる音楽の和声推定
- カラー画像拡大フィルタの疎ベイズ学習
- ADS-1-3 ディリクレ過程混合ガウス分布による画像拡大フィルタの学習(ADS-1. 信号処理のための機械学習,シンポジウムセッション)
- ダイナミクスを考慮したソースフィルタモデルの推定(音響信号処理)
- ベイズ超解像と階層モデリング
- 遷移する遮蔽下でのベイズ超解像
- 1分子蛍光イメージングに対する尤度比検定を用いたアプローチ(機械学習,一般)
- エピソードタスクにおける方策オフ型LSTD(λ)法とその収束性(機械学習によるバイオデータマインニング,一般)
- 線スペクトル対を用いた楽器分類
- 隠れマルコフ/セミマルコフモデルに基づき原信号を動的に切り替える非定常独立成分分析
- 不確実な報酬予測におけるドーパミン活動の計算論的モデル
- アレイ比較ゲノムデータ正規化手法Combfitについて(セッション1:『機械学習によるバイオデータマインニング』)
- CPG-Actor-Critic法によるミミズ型ロボットの推進運動の獲得
- 実画像からの重なり合ったひも状オブジェクトの認識(機械学習,一般)
- 医用X線CTのためのベイズモデルの提案 (医用画像)
- 24OP1-3 神経芽腫のDNAミニチップに基づいた新しい診断法の開発とclinical validation(ポスター NBL(基礎),第22回日本小児がん学会 第48回日本小児血液学会 第4回日本小児がん看護研究会 同時期開催)
- 確率的逐次因子分解による単眼画像時系列からの三次元構造復元(ベイズ情報処理,ベイズ情報処理及び一般)
- 適応的サンプリングによる階層モデル化された対象の効率的状態推定
- 独立成分分析を用いた初期視覚野の二重反対色同心円型受容野の形成
- 前頭前野における隠れ状態推定と環境ダイナミクス同定の機能分離
- オンライン適応自然勾配法による囲碁の盤面評価の学習
- 正規化ガウス関数ネットワークの変分法的ベイズ学習
- 変分法的オンラインベイズ学習による関数近似
- 統計的手法にもとづく強化学習と制御ルールの獲得
- 正規化ガウス関数ネットワーク, Mixture of expertsとEMアルゴリズム
- オンラインEMアルゴリズムによる動的な関数近似
- オンラインEMアルゴリズムによる動的な関数近似
- 巡回セールスマン問題における解の分岐
- セミパラメトリック統計学の観点からのTD学習の一般化(一般講演(物理現象と学習),機械学習とその応用)
- ユーザーの生体信号計測に基づいたロボットとの動的・協調的インタラクション(生体信号の計測と解析,一般)
- 染色体異常に対する混合木モデルの紹介とその改良(遺伝子発現・ネットワーク)
- 視覚的注意の移動特性における復帰抑制の影響
- 混合事前分布を用いたべイズX線CT
- 統計的手法を用いた視床軸索の形態予測
- ARD事前分布を用いた確率的マージン最大化行列因子化法の提案と欠測予測(神経ダイナミクス,一般)
- 医用X線CTのためのベイズモデルの提案
- ガウス過程を用いた能動サンプリングに基づく強化学習法
- サンプル再利用型強化学習による準受動2足歩行ロボットの学習
- 強化学習と脳における報酬系の情報処理(脳化学2,数学者のための分子生物学入門-新しい数学を造ろう-)
- 重点サンプリングに基づくNatural Actor-Critic法による効果的なサンプルの再利用(人工知能,認知科学)
- 方策オフ型Natural Actor-Critic法
- 方策こう配法に基づく強化学習法と二足歩行運動制御への応用(バイオサイバネティックス, ニューロコンピューティング)
- 二足歩行運動に対する方策勾配法に基づいた強化学習法
- 確率的方策勾配法に基づくactor-critic法と連続システムの制御への応用
- 多層パーセプトロンによるパターン識別に適した特徴抽出器の再学習
- 非周期的視標時系列に対するヒトの予測性能(一般,ベイズ情報処理及び一般)
- ネットワーク構造推定問題における同時多重性を考慮したグレンジャー因果推定の改良手法について (ニューロコンピューティング)
- ECOC復号法に基づく階層的多値判別法
- 確率モデルに基づく2値分類から多値分類へのデコード(情報物理学の数学的構造)
- 光学系における二点分解能解析のための統計的手法
- スパイク信号列に基づく神経細胞間ネットワーク構造推定:group LASSOによるアプローチ
- 視覚的注意効能のマップ表現構築に向けて (ニューロコンピューティング)
- ネットワーク構造推定問題における同時多重性を考慮したグレンジャー因果推定の改良手法について
- 注意の影響を考慮した知覚学習のシミュレーションモデル
- テスト性能の分散を考慮したロバストな判別器の選択基準(テーマセッション「ランダムネスと予測〜その基礎と応用」及び一般, ランダムネスと予測-その基礎と応用1)
- 銅谷賢治先生の日本学術振興会賞ご受賞によせて
- 視覚的注意効能のマップ表現構築に向けて(一般講演(バイオ情報学),機械学習によるバイオデータマインニング,一般)
- テンソル因子化を用いたニューロンイメージの修復(一般講演(バイオ情報学),機械学習によるバイオデータマインニング,一般)
- 確率システムの立場からの画像情報処理技術(システム制御情報における確率論の先端応用)
- SF-028-1 細胞周期の可視化によるインターフェロン/5-FU併用療法の作用機序解明を目指した基礎的検討(SF-028 サージカルフォーラム(28)肝 基礎-4,第112回日本外科学会定期学術集会)
- 非定常環境における自己組織化強化学習