部分観測環境での強化学習へのモデルベースアプローチ : 可変長記憶モデルのベイズ学習
スポンサーリンク
概要
- 論文の詳細を見る
Most of the reinforcement learning (RL) algorithms assume that the learning processes of embedded agents can be formulated as Markov Decision Processes (MDPs). However, the assumption is not valid for many realistic problems. Therefore, research on RL techniques for non-Markovian environments is gaining more attention recently. We have developed a Bayesian approach to RL in non-Markovian environments, in which the environment is modeled as a history tree model, a stochastic model with variable memory length. In our approach, given a class of history trees, the agent explores the environment and learns the maximum a posteriori (MAP) model on the basis of Bayesian Statistics. The optimal policy can be computed by Dynamic Programming, after the agent has learned the environment model. Unlike many other model learning techniques, our approach does not suffer from the problems of noise and overfitting, thanks to the Bayesian framework. We have analyzed the asymptotic behavior of the proposed algorithm and have proved that if the given class contains the exact model of the environment, the model learned by our algorithm converges to it. We also present the results of our experiments in two non-Markovian environments.
- 社団法人人工知能学会の論文
- 1998-05-01
著者
関連論文
- ソフトマックス行動選択のパラメータ調整の手間を省くための新たな関数の導入 (ニューロコンピューティング)
- 混合モデルにおける部分母集団の階層構造を同定するためのクラスタ分析(一般セッション7)
- 混合モデルにおける部分母集団の階層構造を同定するためのクラスタ分析(一般セッション7,顔・ジェスチャの認識・理解)
- 階層的混合モデル学習のためのコンポーネント削減法(パターン認識)
- 学究活動に不可欠になったキャンパスネットワーク構築の一事例
- 学究活動に不可欠になったキャンパスネットワーク構築の一事例
- I_028 多様体学習に基づく単フレーム超解像(I分野:画像認識・メディア理解)
- 階層隠れCRF(パターン認識)
- 移動と観測と地図の不確かさを考慮したロボットの最適行動プラニング
- 混合ディリクレ過程モデルを用いたARMAモデルべース時系列クラスタリング
- ソフトマックス行動選択のパラメータ調整の手間を省くための新たな関数の導入
- HHMMsとHHCRFsの状態系列推定性能に関する比較
- 形状認識のための核関数を用いた形状表現(パターン認識)
- グラフカット画像分割の高速・高精度化--四分木表現に基づく領域ベースアプローチ
- 四分木表現に基づくグラフカット画像分割(画像認識,コンピュータビジョン)
- H-021 階層隠れCRFによるスポーツ映像のセグメンテーション(画像認識・メディア理解,一般論文)
- F-044 強化学習におけるパラメータ設定に頑健な行動選択戦略(人工知能・ゲーム,一般論文)
- RF-004 混合ディリクレ過程モデルを利用したARMAモデルベース時系列クラスタリング(人工知能・ゲーム,査読付き論文)
- 確率密度推定に基づくRDSP法を用いた音素データの階層クラスタ分析(研究速報)
- グラフカットに基づく画像分割の四分木表現による改善(一般セッション1)
- RDSP法を使った音素データの階層クラスタ分析
- グラフカットに基づく画像分割の四分木表現による改善(一般セッション1,三次元画像,多視点画像)
- グラフカットに基づく画像分割の四分木表現による改善(一般セッション1,三次元画像,多視点画像)
- 混合モデルにおける部分母集団の階層構造を同定するためのクラスタ分析(一般セッション7,顔・ジェスチャの認識・理解)
- H-004 確率密度推定を用いたRDSP法によるクラスタの階層構造の調査(H分野:画像認識・メディア理解)
- F-034 確率的選択法を用いた分布推定アルゴリズム(F分野:人工知能・ゲーム)
- H-004 ガウス過程事前分布を用いた時系列多重整列法(H分野:画像認識・メディア理解,一般論文)
- 5W-3 階層的時系列モデルによる固有表現抽出(言語情報抽出,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 3W-8 HMMの変分ベイズ学習と環境音認識への応用(学習(2),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 3W-3 ガウス過程に基づく生成モデルを用いた時系列の多重整列(学習(2),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- H-003 半正定値計画法による時系列データの埋め込み(H分野:画像認識・メディア理解)
- H-002 階層隠れCRFの提案(H分野:画像認識・メディア理解)
- 経路と交差点の観測による環境地図の作成
- 経路と交差点の観測による環境地図の作成
- ランドマークに基づいたロボットの経路の自律走行
- モデルの不確実性を考慮した決定理論的計画立案
- 時系列データのセグメンテーションを目的としたHHMMの半教師付学習
- 部分観測環境での強化学習へのモデルベースアプローチ : 可変長記憶モデルのベイズ学習
- 非マルコフ的環境での強化学習へのベイズアプロ-チ
- I_077 グラフスペクトル法を利用した画像圧縮(I分野:画像認識・メディア理解)
- マルコフ確率場を用いた自動作曲(自動作曲・作曲支援)
- マルコフ確率場を用いた自動作曲(自動作曲・作曲支援)
- LH-001 スケールの影響に対して頑健な曲線の最適整合(画像認識・メディア理解)
- パーティクルフィルタを用いた歩き方による個人識別(一般セッション4)
- I_024 階層的クラスタリングにおけるWard法と情報理論的な非類似度との関係(I分野:画像認識・メディア理解)
- パーティクルフィルタを用いた歩き方による個人識別(一般セッション,事例ベースメディア解析)
- クラスタリングにおけるクラスタ間の新しい非類似度について
- E-030 マルコフ確率場を用いた自動作曲(E分野:自然言語・音声・音楽)
- I_060 画像の逐次入力に対応したボクセルモデルによる立体復元(I分野:画像認識・メディア理解)
- D-12-99 二足歩行ロボットのための自己位置・姿勢推定手法(D-12.パターン認識・メディア理解,一般講演)
- I_023 ナイストロム法を用いた時系列データの高速類似検索法の検討(I分野:画像認識・メディア理解)
- POMDP研究に基づいたハイブリッド分類子システム
- I_061 粒子フィルタによる三次元復元(I分野:画像認識・メディア理解)
- I_016 回帰法を利用した色ヒストグラムに基づく物体追跡法(I分野:画像認識・メディア理解)
- 階層的混合モデル学習のためのEMアルゴリズム (テーマ:「データマイニングと統計数理」および一般)
- D-12-6 パーティクルフィルタを用いたStructure from Motion(D-12. パターン認識・メディア理解, 情報・システム2)
- DTW距離を用いた時系列データのベクトル空間への埋込(パターン認識情報論的学習理論論文)
- A-16-34 複数の全方位カメラからの自由視点画像の生成(A-16. マルチメディア・仮想環境基礎)
- D-12-78 動的時間伸縮を用いた時系列データの機械学習(D-12.パターン認識・メディア理解A)
- データ要約を介した分類器学習法
- ブースティング法に発想を得た確率モデル学習アルゴリズム
- ブースティング法に対する新解釈
- ガウス過程事前分布を用いた時系列整列 (ニューロコンピューティング)
- ガウス過程事前分布を用いた時系列整列
- 階層的時系列データのための識別モデル(パターン認識)
- ガウス過程に基づくノンパラメトリックベイズ時系列整列(人工知能,データマイニング,学生論文)
- 階層的時系列データのための識別モデル
- H-042 ガウス過程事前分布を用いた空間相関混合モデルによる画像分割(H分野:画像認識・メディア理解,一般論文)
- H-040 空間相関有限混合モデルによる画像分割(H分野:画像認識・メディア理解,一般論文)