セミパラメトリック統計学に基づく価値関数推定
スポンサーリンク
概要
- 論文の詳細を見る
Least squares temporal difference(LSTD)に基づく価値関数推定法が開発され,実問題で良い性能を示している.しかしながら,LSTDによる推定量の統計的性質は明らかにされていない.本研究では,LSTD法に基づくモデルフリー型方策評価法をセミパラメトリック統計学の観点から議論する.セミパラメトリック推定では,真の価値関数を表現できるパラメトリックモデルが与えられている場合,推定関数法によって,タスク環境をモデル化することなく,漸近的に真の価値関数に収束する一致推定量を得ることができる.これより,LSTD規範の推定量の漸近的な推定分散を解析し,解析した推定分散を最小にする最適な推定関数を導出する.また,最適な推定関数を得るために必要な計算負担を軽減することを目的として,準最適な推定量も提案する.
- 社団法人電子情報通信学会の論文
- 2009-03-04
著者
-
石井 信
京都大学
-
前田 新一
京都大学大学院情報学研究科
-
石井 信
京都大学大学院情報学研究科
-
森 健
京都大学
-
前田 新一
京都大学大学院情報学研究科システム科学専攻
-
植野 剛
京都大学大学院情報学研究科
-
川鍋 一晃
Fraunhofer FIRST
-
森 健
京都大学大学院情報学研究科
-
石井 信
京都大学大学院情報学研究科システム科学専攻
-
石井 信
奈良先端科学技術大学院大学情報科学研究科
-
石井 信
奈良先端科学技術大学院大学:科学技術振興事業団crest銅谷プロジェクト
-
前田 新一
京都大学
-
石井 信
京都大学大学院 情報学研究科 システム科学専攻
関連論文
- 複層マルコフ確率場を事前分布とする超解像法におけるハイパパラメータ推定(バイオサイバネティックス,ニューロコンピューティング)
- 脊椎動物の発生過程における分節時計の分子システム(生命現象,一般)
- Generalization of TD-learning from a semiparametric statistical viewpoint (情報論的学習理論と機械学習)
- 検定多重性とサンプル個性を利用した臨床ラベル関連遺伝子探索(学習によるバイオデータマインニング・生命現象の非線形性,機械学習によるバイオデータマインニング・生命現象の非線形性,一般)
- 検定多重性とサンプル個性を利用した臨床ラベル関連遺伝子探索(機械学習によるバイオデータマインニング・生命現象の非線形性,機械学習によるバイオデータマインニング・生命現象の非線形性,一般)
- 検定多重性とサンプル個性を利用した臨床ラベル関連遺伝子探索(3研究会合同企画セッション[1])
- 内部状態を用いた強化学習によるマルチエージェント系における協調行動の獲得(機械学習によるバイオデータマインニング,一般)
- 遮蔽物を含む画像からの超解像
- 不確実性を手なずけるベイズ統計推測による画像超解像 (小特集 ビジョンコンピューティングにおける確率的情報処理の展開)
- 適応的モデル複雑度に基づくモジュール強化学習
- 非定常環境における自己組織化強化学習(一般,機械学習によるバイオデータマインニング・生命現象の非線形性,一般)
- 多重検定におけるODP統計量の有効な推定
- 指数族行列因子化の状態空間モデルへの拡張と時系列関係データ解析への応用
- 他者の内部状態推定と行動予測を用いた意思決定モデル(機械学習,一般)
- 4.不確実性を手なずけるベイズ統計推測による画像超解像(ビジョンコンピューティングにおける確率的情報処理の展開)
- 平均場近似を用いたHelmholtz Machineの学習
- 24OP6-4 肝芽腫におけるアレイCGH・cDNAマイクロアレイ解析(ポスター 肝芽腫,第22回日本小児がん学会 第48回日本小児血液学会 第4回日本小児がん看護研究会 同時期開催)
- 24OP1-22 アレイCGHと発現マイクロアレイを組み合わせた神経芽腫の新しいリスク分類の試み(ポスター NBL(基礎),第22回日本小児がん学会 第48回日本小児血液学会 第4回日本小児がん看護研究会 同時期開催)
- 18.肝芽腫におけるアレイCGHの解析 : 予後診断チップの開発へ向けた試み(日本小児肝癌スタディグループ研究会2006,研究会)
- ガウシアンプロセスによる名演奏の学習(Rencon)
- 混合事前分布を用いたベイズX線CT (ニューロコンピューティング)
- オンライン適応自然勾配法による囲碁の盤面評価の学習 (ニューロコンピューティング)
- ADS-1-3 ディリクレ過程混合ガウス分布による画像拡大フィルタの学習(ADS-1.信号処理のための機械学習,シンポジウムセッション)
- セミパラメトリック統計学に基づく価値関数推定
- 同時発音の相関を考慮した確率モデルによる音楽の和声推定
- カラー画像拡大フィルタの疎ベイズ学習
- ADS-1-3 ディリクレ過程混合ガウス分布による画像拡大フィルタの学習(ADS-1. 信号処理のための機械学習,シンポジウムセッション)
- ダイナミクスを考慮したソースフィルタモデルの推定(音響信号処理)
- ベイズ超解像と階層モデリング
- 遷移する遮蔽下でのベイズ超解像
- 1分子蛍光イメージングに対する尤度比検定を用いたアプローチ(機械学習,一般)
- エピソードタスクにおける方策オフ型LSTD(λ)法とその収束性(機械学習によるバイオデータマインニング,一般)
- 線スペクトル対を用いた楽器分類
- 隠れマルコフ/セミマルコフモデルに基づき原信号を動的に切り替える非定常独立成分分析
- スムースギャップ事前分布をもちいた超解像
- 不確実な報酬予測におけるドーパミン活動の計算論的モデル
- Bayesian noisy ICA for source switching environments
- 価値関数の分解による高速な強化学習法
- 非線形ノイズ付き独立成分分析
- 学習によるproduct codeの設計(情報理論)
- 脳における予測と推定の仕組み (特集《神経情報処理》最前線--情報科学と神経科学の融合)
- アレイ比較ゲノムデータ正規化手法Combfitについて(セッション1:『機械学習によるバイオデータマインニング』)
- CPG-Actor-Critic法によるミミズ型ロボットの推進運動の獲得
- 実画像からの重なり合ったひも状オブジェクトの認識(機械学習,一般)
- 医用X線CTのためのベイズモデルの提案 (医用画像)
- 24OP1-3 神経芽腫のDNAミニチップに基づいた新しい診断法の開発とclinical validation(ポスター NBL(基礎),第22回日本小児がん学会 第48回日本小児血液学会 第4回日本小児がん看護研究会 同時期開催)
- 確率的逐次因子分解による単眼画像時系列からの三次元構造復元(ベイズ情報処理,ベイズ情報処理及び一般)
- 適応的サンプリングによる階層モデル化された対象の効率的状態推定
- 演奏者の個性を表す特徴に関する考察
- 正則化による汎化誤差不偏推定量の改良
- 統計的学習によるテンポの変動を考慮したピアノ演奏模写
- 判別分析の幾何的解釈と楽器特徴抽出法の考察(ポスターセッション,ネットワーク,通信のための信号処理及び一般)
- 判別分析の幾何的解釈と楽器特徴抽出法の考察(ポスターセッション,ネットワーク,通信のための信号処理及び一般)
- 独立成分分析を用いた初期視覚野の二重反対色同心円型受容野の形成
- 前頭前野における隠れ状態推定と環境ダイナミクス同定の機能分離
- オンライン適応自然勾配法による囲碁の盤面評価の学習
- セミパラメトリック統計学の観点からのTD学習の一般化(一般講演(物理現象と学習),機械学習とその応用)
- 判別分析の幾何的解釈と楽器特徴抽出法の考察(ポスターセッション,ネットワーク,通信のための信号処理及び一般)
- 判別分析の幾何的解釈と楽器特徴抽出への適用
- ユーザーの生体信号計測に基づいたロボットとの動的・協調的インタラクション(生体信号の計測と解析,一般)
- 染色体異常に対する混合木モデルの紹介とその改良(遺伝子発現・ネットワーク)
- 視覚的注意の移動特性における復帰抑制の影響
- 混合事前分布を用いたべイズX線CT
- 統計的手法を用いた視床軸索の形態予測
- ARD事前分布を用いた確率的マージン最大化行列因子化法の提案と欠測予測(神経ダイナミクス,一般)
- 医用X線CTのためのベイズモデルの提案
- アクチンフィラメントによる成長円錐の糸状仮足伸長メカニズム
- ガウス過程を用いた能動サンプリングに基づく強化学習法
- サンプル再利用型強化学習による準受動2足歩行ロボットの学習
- 強化学習と脳における報酬系の情報処理(脳化学2,数学者のための分子生物学入門-新しい数学を造ろう-)
- 重点サンプリングに基づくNatural Actor-Critic法による効果的なサンプルの再利用(人工知能,認知科学)
- 方策オフ型Natural Actor-Critic法
- 方策こう配法に基づく強化学習法と二足歩行運動制御への応用(バイオサイバネティックス, ニューロコンピューティング)
- 二足歩行運動に対する方策勾配法に基づいた強化学習法
- 確率的方策勾配法に基づくactor-critic法と連続システムの制御への応用
- 多層パーセプトロンによるパターン識別に適した特徴抽出器の再学習
- 非周期的視標時系列に対するヒトの予測性能(一般,ベイズ情報処理及び一般)
- ネットワーク構造推定問題における同時多重性を考慮したグレンジャー因果推定の改良手法について (ニューロコンピューティング)
- ECOC復号法に基づく階層的多値判別法
- Bayesian noisy ICA for source switching environments
- 確率モデルに基づく2値分類から多値分類へのデコード(情報物理学の数学的構造)
- 光学系における二点分解能解析のための統計的手法
- スパイク信号列に基づく神経細胞間ネットワーク構造推定:group LASSOによるアプローチ
- 視覚的注意効能のマップ表現構築に向けて (ニューロコンピューティング)
- ネットワーク構造推定問題における同時多重性を考慮したグレンジャー因果推定の改良手法について
- 注意の影響を考慮した知覚学習のシミュレーションモデル
- 「Neuro2010」(第33回日本神経科学大会, 第53回日本神経化学会大会, 第20回日本神経回路学会大会 合同大会)開催報告
- 銅谷賢治先生の日本学術振興会賞ご受賞によせて
- 視覚的注意効能のマップ表現構築に向けて(一般講演(バイオ情報学),機械学習によるバイオデータマインニング,一般)
- テンソル因子化を用いたニューロンイメージの修復(一般講演(バイオ情報学),機械学習によるバイオデータマインニング,一般)
- 確率システムの立場からの画像情報処理技術(システム制御情報における確率論の先端応用)
- Data deluge の時代の神経系モデリング
- システム神経生物学スプリングスクール2012開催報告
- 非定常環境における自己組織化強化学習
- 協調行動学習における非定常性の重要性
- 協調行動学習における非定常性の重要性
- ベイズ推定による顕微鏡画像の深さ推定
- ベイズ推定による顕微鏡画像の深さ推定
- 経路積分強化学習による猫ひねり運動の制御
- 経路積分強化学習による猫ひねり運動の制御