最悪ケースを考慮した最適スーパバイザの強化学習

スポンサーリンク

概要

論文の詳細を見る
RamadgeとWonhamによって提案されたスーパバイザ制御は,離散事象システムに対する論理的な制御の枠組みであった.これに対し,コストをも考慮した最適スーパバイザ制御についての研究も行われている.本報告では,スーパバイザが提示する制御パターンに対して新たな評価関数を導入する.提示する制御パターンに対しての期待報酬に基づき評価値を定めるのではなく,スーパバイザが許容した制御パターンの中で,最も望ましくない振る舞いを離散事象システムが選択したという最悪ケースに基づいた評価値を用いる.強化学習によってスーパバイザが最悪ケースにおける評価値を最大とする制御パターンを学習する手法を提案する.また,計算機実験において,最適な制御パターンを学習することを示し,提案手法の有効性を示す.
2009-01-22

著者

関連論文

もっと見る

スポンサーリンク