部分観測下での最悪ケースを考慮したスーパバイザの強化学習(ペトリネット,離散事象システム,一般)

スポンサーリンク

概要

論文の詳細を見る
著者らはこれまでに,最悪ケースを考慮したスーパバイザ(制御器)を強化学習により設計する手法を提案している.しかし,現実のシステムにおいては,すべての事象の生起を完全には観測できない状況が考えられる.そのため,事象の生起が部分観測の場合も考慮して制御パターンをスーパバイザに学習させる必要がある.本報告では,完全観測の場合において提案した手法を拡張し,部分観測環境において最適な制御パターンの与え方をスーパバイザに学習させる手法を提案する.部分観測環境を扱うために射影関数と報酬のデータベースを導入し,射影関数から与えられる情報を基にスーパバイザは学習を進めていく.この時,スーパバイザは,状態と評価値の推定を行うことにより,最適な制御パターンの与え方を学習する.計算機実験により,部分観測環境においても最適な制御パターンが学習できることを示し,提案手法の有効性を示す.
2009-05-27

著者

関連論文

もっと見る

スポンサーリンク