ガウス過程を用いた能動サンプリングに基づく強化学習法
スポンサーリンク
概要
- 論文の詳細を見る
強化学習では一般に、良い方策を獲得するために多くのサンプルを生成する必要がある。このことは、実ロボットなどの制御を学習する場合、故障や手間などの問題を引き起こす。強化学習で多くのサンプルが必要になる原因の一つとして、学習エージェントが従う方策から受動的にサンプルを生成しなければならないという制約がある。この制約を回避して、学習に有利なサンプルを能動的にサンプリングする強化学習法が望まれるが、現在のところシステマティックな手法は提案されていない。本報告では、方策の収束を保証するための条件を与えた下で、ガウス過程に基づいて能動サンプリングを行う新しい強化学習法を提案する。また、少ないサンプル数で良い方策が獲得できることを計算機実験により示す。
- 2008-03-05
著者
-
石井 信
京都大学
-
森 健
京都大学
-
森 健
京都大学大学院情報学研究科
-
森 健
奈良先端科学技術大学院大学
-
石井 信
奈良先端科学技術大学院大学情報科学研究科
-
石井 信
京都大学情報学研究科
-
竹田 和博
奈良先端科学技術大学院大学情報科学研究科
関連論文
- 複層マルコフ確率場を事前分布とする超解像法におけるハイパパラメータ推定(バイオサイバネティックス,ニューロコンピューティング)
- 脊椎動物の発生過程における分節時計の分子システム(生命現象,一般)
- 検定多重性とサンプル個性を利用した臨床ラベル関連遺伝子探索(学習によるバイオデータマインニング・生命現象の非線形性,機械学習によるバイオデータマインニング・生命現象の非線形性,一般)
- 検定多重性とサンプル個性を利用した臨床ラベル関連遺伝子探索(機械学習によるバイオデータマインニング・生命現象の非線形性,機械学習によるバイオデータマインニング・生命現象の非線形性,一般)
- 検定多重性とサンプル個性を利用した臨床ラベル関連遺伝子探索(3研究会合同企画セッション[1])
- 内部状態を用いた強化学習によるマルチエージェント系における協調行動の獲得(機械学習によるバイオデータマインニング,一般)
- 遮蔽物を含む画像からの超解像
- 適応的モデル複雑度に基づくモジュール強化学習
- 非定常環境における自己組織化強化学習(一般,機械学習によるバイオデータマインニング・生命現象の非線形性,一般)
- 多重検定におけるODP統計量の有効な推定
- 指数族行列因子化の状態空間モデルへの拡張と時系列関係データ解析への応用
- 他者の内部状態推定と行動予測を用いた意思決定モデル(機械学習,一般)
- 4.不確実性を手なずけるベイズ統計推測による画像超解像(ビジョンコンピューティングにおける確率的情報処理の展開)
- 平均場近似を用いたHelmholtz Machineの学習
- 24OP6-4 肝芽腫におけるアレイCGH・cDNAマイクロアレイ解析(ポスター 肝芽腫,第22回日本小児がん学会 第48回日本小児血液学会 第4回日本小児がん看護研究会 同時期開催)
- 24OP1-22 アレイCGHと発現マイクロアレイを組み合わせた神経芽腫の新しいリスク分類の試み(ポスター NBL(基礎),第22回日本小児がん学会 第48回日本小児血液学会 第4回日本小児がん看護研究会 同時期開催)
- 18.肝芽腫におけるアレイCGHの解析 : 予後診断チップの開発へ向けた試み(日本小児肝癌スタディグループ研究会2006,研究会)
- オンライン適応自然勾配法による囲碁の盤面評価の学習 (ニューロコンピューティング)
- ADS-1-3 ディリクレ過程混合ガウス分布による画像拡大フィルタの学習(ADS-1.信号処理のための機械学習,シンポジウムセッション)
- セミパラメトリック統計学に基づく価値関数推定
- 同時発音の相関を考慮した確率モデルによる音楽の和声推定
- カラー画像拡大フィルタの疎ベイズ学習
- ADS-1-3 ディリクレ過程混合ガウス分布による画像拡大フィルタの学習(ADS-1. 信号処理のための機械学習,シンポジウムセッション)
- ダイナミクスを考慮したソースフィルタモデルの推定(音響信号処理)
- ベイズ超解像と階層モデリング
- 遷移する遮蔽下でのベイズ超解像
- 1分子蛍光イメージングに対する尤度比検定を用いたアプローチ(機械学習,一般)
- エピソードタスクにおける方策オフ型LSTD(λ)法とその収束性(機械学習によるバイオデータマインニング,一般)
- 線スペクトル対を用いた楽器分類
- 隠れマルコフ/セミマルコフモデルに基づき原信号を動的に切り替える非定常独立成分分析
- 不確実な報酬予測におけるドーパミン活動の計算論的モデル
- アレイ比較ゲノムデータ正規化手法Combfitについて(セッション1:『機械学習によるバイオデータマインニング』)
- CPG-Actor-Critic法によるミミズ型ロボットの推進運動の獲得
- 実画像からの重なり合ったひも状オブジェクトの認識(機械学習,一般)
- 24OP1-3 神経芽腫のDNAミニチップに基づいた新しい診断法の開発とclinical validation(ポスター NBL(基礎),第22回日本小児がん学会 第48回日本小児血液学会 第4回日本小児がん看護研究会 同時期開催)
- 確率的逐次因子分解による単眼画像時系列からの三次元構造復元(ベイズ情報処理,ベイズ情報処理及び一般)
- 適応的サンプリングによる階層モデル化された対象の効率的状態推定
- 独立成分分析を用いた初期視覚野の二重反対色同心円型受容野の形成
- 前頭前野における隠れ状態推定と環境ダイナミクス同定の機能分離
- オンライン適応自然勾配法による囲碁の盤面評価の学習
- 正規化ガウス関数ネットワークの変分法的ベイズ学習
- 変分法的オンラインベイズ学習による関数近似
- 統計的手法にもとづく強化学習と制御ルールの獲得
- 正規化ガウス関数ネットワーク, Mixture of expertsとEMアルゴリズム
- オンラインEMアルゴリズムによる動的な関数近似
- オンラインEMアルゴリズムによる動的な関数近似
- 巡回セールスマン問題における解の分岐
- セミパラメトリック統計学の観点からのTD学習の一般化(一般講演(物理現象と学習),機械学習とその応用)
- ユーザーの生体信号計測に基づいたロボットとの動的・協調的インタラクション(生体信号の計測と解析,一般)
- 染色体異常に対する混合木モデルの紹介とその改良(遺伝子発現・ネットワーク)
- 視覚的注意の移動特性における復帰抑制の影響
- 混合事前分布を用いたべイズX線CT
- 統計的手法を用いた視床軸索の形態予測
- ARD事前分布を用いた確率的マージン最大化行列因子化法の提案と欠測予測(神経ダイナミクス,一般)
- 医用X線CTのためのベイズモデルの提案
- ガウス過程を用いた能動サンプリングに基づく強化学習法
- サンプル再利用型強化学習による準受動2足歩行ロボットの学習
- 強化学習と脳における報酬系の情報処理(脳化学2,数学者のための分子生物学入門-新しい数学を造ろう-)
- 重点サンプリングに基づくNatural Actor-Critic法による効果的なサンプルの再利用(人工知能,認知科学)
- 方策オフ型Natural Actor-Critic法
- 方策こう配法に基づく強化学習法と二足歩行運動制御への応用(バイオサイバネティックス, ニューロコンピューティング)
- 二足歩行運動に対する方策勾配法に基づいた強化学習法
- 確率的方策勾配法に基づくactor-critic法と連続システムの制御への応用
- 多層パーセプトロンによるパターン識別に適した特徴抽出器の再学習
- 非周期的視標時系列に対するヒトの予測性能(一般,ベイズ情報処理及び一般)
- ネットワーク構造推定問題における同時多重性を考慮したグレンジャー因果推定の改良手法について (ニューロコンピューティング)
- ECOC復号法に基づく階層的多値判別法
- 確率モデルに基づく2値分類から多値分類へのデコード(情報物理学の数学的構造)
- 光学系における二点分解能解析のための統計的手法
- スパイク信号列に基づく神経細胞間ネットワーク構造推定:group LASSOによるアプローチ
- 視覚的注意効能のマップ表現構築に向けて (ニューロコンピューティング)
- ネットワーク構造推定問題における同時多重性を考慮したグレンジャー因果推定の改良手法について
- 注意の影響を考慮した知覚学習のシミュレーションモデル
- テスト性能の分散を考慮したロバストな判別器の選択基準(テーマセッション「ランダムネスと予測〜その基礎と応用」及び一般, ランダムネスと予測-その基礎と応用1)
- 銅谷賢治先生の日本学術振興会賞ご受賞によせて
- 視覚的注意効能のマップ表現構築に向けて(一般講演(バイオ情報学),機械学習によるバイオデータマインニング,一般)
- テンソル因子化を用いたニューロンイメージの修復(一般講演(バイオ情報学),機械学習によるバイオデータマインニング,一般)
- 確率システムの立場からの画像情報処理技術(システム制御情報における確率論の先端応用)
- 検定多重性とサンプル個性を利用した臨床ラベル関連遺伝子探索
- 非定常環境における自己組織化強化学習