確率的逐次決定過程の分類情報スペクトル的アプローチ
スポンサーリンク
概要
- 論文の詳細を見る
マルコフ決定過程は,強化学習において,エージェントと環境の相互作用の枠組みを表現するための最も代表的な確率的逐次決定過程である.マルコフ決定過程は定常エルゴードであることを仮定されることが多いが,強化学習の応用で現れる大部分の確率的逐次決定過程はマルコフ性,定常性,エルゴード性を満たすとは限らない.本論文では,定常エルゴードマルコフ決定過程よりも一般的な確率的逐次決定過程における収益最大化において,ある情報スペクトル的性質が重要な役割を果たすことを示す.また,収益最大化のための必要条件を使って確率的逐次決定過程を分類し,必要条件を満たす確率的逐次決定過程における収益最大化の例をいくつか示す.
- 2010-03-02
著者
関連論文
- ソフトマックス行動選択のパラメータ調整の手間を省くための新たな関数の導入 (ニューロコンピューティング)
- F_041 マルコフ決定過程に基づくマルチエージェントシステムの漸近的性質(F分野:人工知能・ゲーム)
- 混合モデルにおける部分母集団の階層構造を同定するためのクラスタ分析(一般セッション7)
- 混合モデルにおける部分母集団の階層構造を同定するためのクラスタ分析(一般セッション7,顔・ジェスチャの認識・理解)
- 強化学習の収益最大化における漸近等分割性の役割
- マルチエージェント強化学習におけるエージェント間の制約の影響について(学習理論)
- 階層隠れCRF(パターン認識)
- 確率的逐次決定過程の分類情報スペクトル的アプローチ
- 混合ディリクレ過程モデルを用いたARMAモデルべース時系列クラスタリング
- ソフトマックス行動選択のパラメータ調整の手間を省くための新たな関数の導入
- HHMMsとHHCRFsの状態系列推定性能に関する比較
- 形状認識のための核関数を用いた形状表現(パターン認識)
- F-044 強化学習におけるパラメータ設定に頑健な行動選択戦略(人工知能・ゲーム,一般論文)
- RF-004 混合ディリクレ過程モデルを利用したARMAモデルベース時系列クラスタリング(人工知能・ゲーム,査読付き論文)
- 確率密度推定に基づくRDSP法を用いた音素データの階層クラスタ分析(研究速報)
- RDSP法を使った音素データの階層クラスタ分析
- 混合モデルにおける部分母集団の階層構造を同定するためのクラスタ分析(一般セッション7,顔・ジェスチャの認識・理解)
- H-004 確率密度推定を用いたRDSP法によるクラスタの階層構造の調査(H分野:画像認識・メディア理解)
- 強化学習の収益最大化における漸近等分割性の役割
- EMアルゴリズムを用いた確率的通信路に対する適応等化法
- 典型系列を使った強化学習の解析
- 強化学習における漸近等分割性について
- 強化学習における典型系列について
- 強化学習における典型系列について(NC一般セッション(3))(認識と学習,模倣学習)
- 強化学習における典型系列について(NC一般セッション(3))(認識と学習,模倣学習)
- H-004 ガウス過程事前分布を用いた時系列多重整列法(H分野:画像認識・メディア理解,一般論文)
- 5W-3 階層的時系列モデルによる固有表現抽出(言語情報抽出,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 3W-8 HMMの変分ベイズ学習と環境音認識への応用(学習(2),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 3W-3 ガウス過程に基づく生成モデルを用いた時系列の多重整列(学習(2),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- H-003 半正定値計画法による時系列データの埋め込み(H分野:画像認識・メディア理解)
- H-002 階層隠れCRFの提案(H分野:画像認識・メディア理解)
- 強化学習における複雑さを評価するためのLempel-Ziv符号化(統計的学習理論及び一般)
- LG-4 強化学習における収益の情報源符号化とその行動選択への応用(G. 人工知能)
- LH-001 スケールの影響に対して頑健な曲線の最適整合(画像認識・メディア理解)
- パーティクルフィルタを用いた歩き方による個人識別(一般セッション4)
- I_024 階層的クラスタリングにおけるWard法と情報理論的な非類似度との関係(I分野:画像認識・メディア理解)
- パーティクルフィルタを用いた歩き方による個人識別(一般セッション,事例ベースメディア解析)
- クラスタリングにおけるクラスタ間の新しい非類似度について
- ガウス過程事前分布を用いた時系列整列
- 階層的時系列データのための識別モデル(パターン認識)
- ガウス過程に基づくノンパラメトリックベイズ時系列整列(人工知能,データマイニング,学生論文)
- 情報理論的観点からのソフトマックス行動選択における変数設定の改良(機械学習一般とその応用)
- 階層的時系列データのための識別モデル
- H-042 ガウス過程事前分布を用いた空間相関混合モデルによる画像分割(H分野:画像認識・メディア理解,一般論文)
- H-040 空間相関有限混合モデルによる画像分割(H分野:画像認識・メディア理解,一般論文)