動的計画法によるリターン分布推定(IBIS2010(情報論的学習理論ワークショップ))
スポンサーリンク
概要
- 論文の詳細を見る
標準的な強化学習の枠組みでは, Bellman方程式を用いてリターン(割引報酬和)の期待値を推定し,意思決定を行う.近年,我々はこの枠組みを拡張し,分布Bellman方程式を用いてリターンの分布を推定する方法を提案した.これにより,バリュー・アット・リスクなどのリスクを考慮した任意の指標に基づく意思決定が行えるようになったが,分布Bellman方程式を用いた手法の収束性などの理論的性質は末だ解明されていない.本論文では,分布Bellman方程式を動的計画法によって解いた場合,解が初期近似分布に依存せず常に真のリターン分布に収束することを証明する.さらに,リターン分布推定量のモーメントの収束率も示す.最後に,得られた理論結果から,既存のリターン分布推定法の改善方法を提案し,数値実験からその有効性を示す.
- 2010-10-28
著者
-
鹿島 久嗣
東京大学
-
鹿島 久嗣
東京大学大学院情報理工学系研究科
-
杉山 将
東京工業大学計算工学専攻
-
杉山 将
東京工業大学情報理工学研究科
-
田中 利幸
京大院情報
-
田中 利幸
京都大学大学院情報学研究科システム科学専攻
-
杉山 将
東京工業大学
-
森村 哲郎
IBM東京基礎研究所
-
八谷 大岳
東京工業大学大学院情報理工学研究科
-
田中 利幸
東京都立大学大学院 工学研究科
-
田中 利幸
京都大学大学院情報学研究科
-
田中 利幸
京都大学 大学院 情報学研究科
関連論文
- 現場発想による自然言語処理ブレークスルーの探求(平成21年度論文賞の受賞論文紹介)
- LG-6 サポートベクター回帰のモデル選択(G. 人工知能)
- 教師付き学習を用いた教師なし変化解析手法(知識獲得,機械学習,情報爆発論文)
- スパース正則化およびマルチカーネル学習のための最適化アルゴリズムとCV・PRへの応用(CV・パターン認識のための学習・最適化)
- Density Ratio Estimation : A Comprehensive Review (Statistical Experiment and Its Related Topics)
- Density ratio estimation: a comprehensive review (Statistical experiment and its related topics--RIMS共同研究報告集)
- ネットワーク構造の確率的な時変モデルに基づく教師ありリンク予測
- スパース正則化およびマルチカーネル学習のための最適化アルゴリズムと画像認識への応用
- Superfast probabilistic classifier (マルチメディア・仮想環境基礎)
- Superfast probabilistic classifier (音声)
- Superfast probabilistic classifier (パターン認識・メディア理解)
- 局所フィッシャー判別分析による文書分類(一般セッション2,複合現実感のためのパターン認識・理解)
- 異種ネットワーク統合によるタンパク質機能予測
- 部分的かつ曖昧なラベル付き構造データからのマルコフ条件付確率場の学習(情報抽出・ラベル付与)
- 動的計画法によるリターン分布推定 (情報論的学習理論と機械学習)
- カーネル法に基づく構造データのラベル付け学習アルゴリズム(「自動推論:帰納,演繹,モデル検査/生成,学習,発見,仮説推論、論理プログラム,プランニングetc.」及び一般)
- グラフとネットワークの構造データマイニング
- パターン認識における都市伝説 (パターン認識・メディア理解)
- 現場発想による自然言語処理ブレークスルーの探求
- 日本語単語分割の分野適応のための部分的アノテーションを用いた条件付き確率場の学習
- モデル選択付き能動学習の方法
- 教師付き学習のためのモデル選択と能動学習の理論(機械学習)(人工知能分野における博士論文)
- 二次錘計画法による多タスク学習算法
- 赤穂昭太郎, カーネル多変量解析-非線形データ解析の新しい展開-, 岩波書店, 2008年
- 複数生物種ネットワークの同時予測:半教師つき学習によるアプローチ
- Global analytic solution for variational Bayesian matrix factorization and its model-induced regularization (情報論的学習理論と機械学習)
- 単色光干渉法による透明膜に覆われた物体の膜厚と表面形状の同時測定
- 2波長ワンショット干渉計測(ViEW推薦論文)
- 透明膜で覆われた物体のワンショット干渉計測法
- 白色光干渉法による透明膜に覆われた物体の膜厚と表面形状の同時測定
- 共変量シフト下での教師付き学習
- ラベル付きマルチモーダルデータの埋め込み(一般, 進化・発進の現象とモデル, 一般)
- 訓練入力とテスト入力が異なる確率分布に従う場合の汎化誤差推定
- 訓練入力とテスト入力が異なる確率分布に従う場合の汎化誤差推定
- Active Learning for Maximal Generalization Capability (Applications of the theory of reproducing kernels)
- 正則化による汎化誤差不偏推定量の改良
- 二値回帰問題のための新しいカーネルの提案
- D-11-97 劣化した印刷画像の画質改善
- D-2-6 訓練入力に雑音が含まれる場合の汎化誤差の推定
- ネットワークデータを用いた分散システムにおける異常検出(データマイニング,データ工学論文)
- D-2-2 モデル選択基準Corrected Subspace Information Criterionの理論的性能評価
- Subspace Information Criterionによる画像復元フィルタのパラメータ最適化
- 標本点とモデルの同時最適化
- NLP2000-32 / NC2000-26 標本点とモデルの同時最適化
- パターン認識における都市伝説(テーマセッション,パターン認識とメディア理解のフロンティアとグランドチャレンジ)
- 統計的機械学習の新展開 : 確率密度比に基づくアプローチ(特別セッション,機械学習とその応用)
- 超高速確率的分類器(一般セッション,クロスモーダル)
- 超高速確率的分類器(一般セッション,クロスモーダル)
- 超高速確率的分類器(一般セッション,クロスモーダル)
- 超高速確率的分類器(一般セッション,クロスモーダル)
- スプライスト・アライソメントに基づいたcDNAライブラリの正確なクラスタリング・アルゴリズム
- クラスラベル付きグラフデータからの有用なパターンペア発見 (特集 「医療及び化学情報マイニング」および一般)
- 変分ベイズ行列分解の大域解析解とモデル起因正則化(IBIS2010(情報論的学習理論ワークショップ))
- 動的計画法によるリターン分布推定(IBIS2010(情報論的学習理論ワークショップ))
- 無限次元仮説空間における正則化パラメータの決定法
- 木構造データに対するカーネル関数の設計と解析
- 半構造データへのサポートベクターマシンの適用 (テーマ:一般演題及び「webとtext」)
- 透明膜で覆われた物体のワンショット干渉計測法
- グラフとネットワークの機械学習の確立を目指して : 受賞タイトル 構造データ解析のための機械学習手法(平成20年度長尾真記念特別賞紹介)
- ネットワーク構造予測(ベイジアンネットワークと確率的情報処理の新展開)
- カーネル法による構造データの解析(機械学習による自然言語処理・言語処理を利用したメディア理解, 学習理論とパターン認識メディア理解, 機械学習による自然言語処理・言語処理を利用したメディア理解, 一般)
- カーネル法による構造データの解析(機械学習による自然言語処理・言語処理を利用したメディア理解, 学習理論とパターン認識メディア理解, 機械学習による自然言語処理・言語処理を利用したメディア理解, 一般)
- The 21st International Conference on Machine Learning (ICML) 2004 参加報告
- Web探訪 : カーネル法
- 電子調達オークションにおける最適な財の分配アルゴリズム
- 4. カーネル法による構造データマイニング(最新!データマイニング手法)
- バイアスの推定とモデル選択
- D-2-24 最良線形不偏推定の拡張としての射影学習
- SD-1-10 気象レーダ情報に基づく降水量の推定
- 射影学習による手書き数字認識
- 最適汎化のための逐次型能動学習
- モデル選択規準SICのスパース回帰分析への適用(情報論的学習理論論文小特集)
- バイアスを考慮した逐次型能動学習
- 最適汎化のための射影学習族の追加学習
- D-2-26 三角多項式ニューラルネットワークの能動学習
- 射影汎化ニューラルネットワークの追加学習
- 三角多項式モデルを用いた訓練データの最適設計
- 雑音抑制のための能動学習
- 雑音抑制のための能動学習
- 最適汎化のための射影追加学習
- 雑音が存在する場合の射影追加学習
- 2010年度長尾真記念特別賞紹介 : 確率密度比に基づく新たな機械学習パラダイム
- 超高速確率的分類器
- 密度比推定による画像中の注目領域検出手法
- 統計的機械学習の新展開 : 確率密度比に基づくアプローチ
- 補助情報を用いたテンソル分解(主成分分析,テキスト・Webマイニング,一般)
- 複数情報源に対する主成分分析(主成分分析,テキスト・Webマイニング,一般)
- 部分パスに基づいた線形時間木カーネル(ポスターセッション,第14回情報論的学習理論ワークショップ)
- クラウドソーシングを用いた教師付き学習の凸最適化による定式化(ポスターセッション,第14回情報論的学習理論ワークショップ)
- カーネル法に基づく行列あるいはテンソル補完(ポスターセッション,第14回情報論的学習理論ワークショップ)
- 部分パスに基づいた線形時間木カーネル
- 上位カテゴリにおける観測データが与えられる場合の行列およびテンソル分解法(行列分解,応用,統計推理,データベース,一般)
- クラウドソーシングを用いた教師付き学習の凸最適化による定式化
- 「善い」マトリックスへの一歩?(編集委員今年の抱負2013)
- Learning from Crowds and Experts
- 確率分布間の距離推定 : 機械学習分野における最新動向(サーベイ,機械学習研究部会)
- OS-07 ヒューマンコンピュテーションとクラウドソーシング(オーガナイズドセッション,2013年度人工知能学会全国大会(第27回))
- 複数の関係データの関連を考慮した同時補完法(機械学習)
- 特集「ヒューマンコンピュテーションとクラウドソーシング」にあたって(ヒューマンコンピュテーションとクラウドソーシング)
- 「善い」マトリックスへの一歩?