部分観測下での最悪ケースを考慮したスーパバイザの強化学習(ペトリネット,離散事象システム,一般)
スポンサーリンク
概要
- 論文の詳細を見る
著者らはこれまでに,最悪ケースを考慮したスーパバイザ(制御器)を強化学習により設計する手法を提案している.しかし,現実のシステムにおいては,すべての事象の生起を完全には観測できない状況が考えられる.そのため,事象の生起が部分観測の場合も考慮して制御パターンをスーパバイザに学習させる必要がある.本報告では,完全観測の場合において提案した手法を拡張し,部分観測環境において最適な制御パターンの与え方をスーパバイザに学習させる手法を提案する.部分観測環境を扱うために射影関数と報酬のデータベースを導入し,射影関数から与えられる情報を基にスーパバイザは学習を進めていく.この時,スーパバイザは,状態と評価値の推定を行うことにより,最適な制御パターンの与え方を学習する.計算機実験により,部分観測環境においても最適な制御パターンが学習できることを示し,提案手法の有効性を示す.
- 2009-05-27
著者
-
山崎 達志
摂南大学工学部
-
梶原 弘治
摂南大学大学院工学研究科
-
山崎 達志
摂南大学大学院工学研究科
-
梶原 弘治
摂南大学大学院 工学研究科
-
梶原 弘治
摂南大学工学部
-
山崎 達志
摂南大学大学院 工学研究科
関連論文
- 強化学習に基づく分散離散事象システムの最適スーパバイザ制御 (コンカレント工学)
- 強化学習に基づく分散離散事象システムの最適スーパバイザ制御 (VLSI設計技術)
- 強化学習に基づく分散離散事象システムの最適スーパバイザ制御 (回路とシステム)
- 言語測度を用いた離散事象システムの制御について(コンカレントシステム,離散事象システム,ハイブリッドシステム,及び一般)
- 異なる利得関数を持つグループの共存下における進化的安定性 : 2グループの場合
- A-12-8 強化学習に基づく最適スーパバイザ制御の一般化に関する検討(A-12.コンカレント工学,一般セッション)
- AS-3-4 CSTソリューションコンペティション2010の概要 : マルチカーエレベータの最適制御(AS-3.コンカレントシステム理論の最近の発展とその応用,シンポジウムセッション)
- 最悪ケースを考慮した最適スーパバイザの強化学習
- 強化学習に基づく分散離散事象システムの最適スーパバイザ制御(システムと信号処理及び一般)
- 強化学習に基づく分散離散事象システムの最適スーパバイザ制御(システムと信号処理及び一般)
- CAS2010-26 強化学習に基づく分散離散事象システムの最適スーパバイザ制御(システムと信号処理及び一般)
- 強化学習に基づく分散離散事象システムの最適スーパバイザ制御(システムと信号処理及び一般)
- 部分観測下での最悪ケースを考慮したスーパバイザの強化学習(ペトリネット,離散事象システム,一般)
- AT-3-4 離散事象システムの言語測度に基づいた最適制御(AT-3.コンカレントシステム理論の新しい流れ,チュートリアルセッション,ソサイエティ企画)
- 最悪ケースを考慮した最適スーパバイザの強化学習
- 強化学習に基づく時間付き離散事象システムのスーパバイザ制御(コンカレントシステム,離散事象システム,ハイブリッドシステム,及び一般)
- 言語測度に基づいた最適スーパバイザの強化学習
- 言語測度に基づいた最適スーパバイザの強化学習
- 強化学習を用いた離散事象システムのスーパバイザ制御
- A-12-4 強化学習を用いた部分観測離散事象システムのスーパバイザ制御
- 強化学習を用いた最適スーパバイザの構成
- 省電力を考慮した市場モデルによるメニーコアプロセッサのコア配分(組込みシステム,一般)
- 異なる利得関数を持つグループの共存下における進化的安定性 : 2グループの場合
- 計算生態学モデルの非線形現象解析と工学的応用(システム/制御/情報の最前線-研究交流会トピックス特集号)
- Hogg-Huberman戦略による耐故障性を考慮したパケット網ルーチング
- Hogg-Huberman戦略に基づくパケット網ルーチング方式
- 言語測度を用いた離散事象システムのスーパバイザ制御
- リスクとコストを考慮した離散事象システムの最適スーパバイザ制御 (システム数理と応用)
- リスクとコストを考慮した離散事象システムの最適スーパバイザ制御 (信号処理)
- リスクとコストを考慮した離散事象システムの最適スーパバイザ制御 (VLSI設計技術)
- リスクとコストを考慮した離散事象システムの最適スーパバイザ制御 (回路とシステム)
- CSTソリューションコンペティション2010 : マルチカーエレベータの最適制御(CSTソリューションコンペティション2010,コンカレントシステム及び一般)
- 部分観測下での最悪ケースに基づくスーパバイザの強化学習(システムと制御)
- A-12-3 調停器と強化学習による大規模離散事象システムの分散スーパバイザ制御に関する検討(A-12.システム数理と応用,一般セッション)
- リスクとコストを考慮した離散事象システムの最適スーパバイザ制御(システムと信号処理及び一般)
- リスクとコストを考慮した離散事象システムの最適スーパバイザ制御(システムと信号処理及び一般)
- リスクとコストを考慮した離散事象システムの最適スーパバイザ制御(システムと信号処理及び一般)
- リスクとコストを考慮した離散事象システムの最適スーパバイザ制御(システムと信号処理及び一般)
- 強化学習を用いた離散事象システムのスーパバイザ制御
- 離散事象システムのスーパバイザ制御理論-V : 最適スーパバイザ制御