部分観測環境のモデルパラメータに対する徒弟学習(強化学習,統計推理,データベース,一般)

スポンサーリンク

概要

論文の詳細を見る
エキスパートの演示を観測することでタスクを学習する徒弟学習において、環境が部分的にしか観測できず、かつその環境のモデルに不確実性が含まれる問題を考える。このような問題設定は、人間との対話システムなど、対象の明示的なモデリングが困難なアプリケーションの設計に有効である。我々は、エキスパートが対象環境の真のモデルをもとに最適な行動を選択していると仮定することで、演示の背後にある行動決定過程に対する推論を通して対象環境のモデルに関する情報を抽出できることを示す。環境の応答のみに注目して環境モデルを推論する従来手法と比較して、提案する2種のアルゴリズムは、非常に短い演示からでも環境モデルのパラメータを推定できることを示す。
2012-03-05

著者

関連論文

もっと見る

スポンサーリンク