時間整合的マルコフ決定過程のロバスト性(第15回情報論的学習理論ワークショップ)
スポンサーリンク
概要
- 論文の詳細を見る
マルコフ決定過程(MDP)の目的関数が、単調性を持つ反復的リスク指標である場合には、そのMDPの最適施策が動的計画法によって求められることを示す。単調性を持つ反復的リスク指標が更に並進不変性を持つ場合には、MDPの最適施策がより効率的に求められることを示す。期待効用では表現できないが理にかなっていると思われるリスク選好が、反復的リスク指標で表現できることを示す。更に、ある反復的リスク指標の最小化を目的とするMDPは、ロバストMDPとして解釈できることを示す。ロバストMDPは、MDPのパラメータ値が不確実であることを前提とし、最悪の場合に対して、累積期待コストなどを最小化することを目的とする。具体的には、期待指数効用の最小化を目的とするMDPは、期待値からパラメータの基準値からの乖離度のカルバック・ライブラー距離を減じた値を、最悪の場合において最小化するロバストMDPと等価であることを示す。また、コヒーレントなリスク指標からなる反復的リスク指標の値を最小化することを目的とするMDPは、ある凹関数によって不確実性が特徴付けられるロバストMDPと等価であることを示す。
- 2012-10-31
著者
関連論文
- 第28回2009年度待ち行列シンポジウムルポ(情報の窓)
- 第29回2010年度待ち行列シンポジウムルポ(情報の窓)
- 特集にあたって(クラウドとアナリティクス)
- より信頼できる指標に基づくシステム性能の最適化(トラヒック,NW評価,性能,リソース管理・制御,トラヒックエンジニアリング,NW信頼性・レジリエンシ,一般)
- 2-E-1 流体極限におけるLRUキャッシュアルゴリズム(待ち行列(1))
- マルコフ連鎖の次元削減法とタスク割り当てルールの性能解析への応用(トラヒック解析・制御(1),インターネットトラヒック,TCP/IP,性能解析・評価,ネットワークモデル及び一般)
- 1-B-2 リスクを考慮した動的経路選択(特別セッション 確率最適化モデルとその応用(1))
- 時間整合的マルコフ決定過程のロバスト性(第15回情報論的学習理論ワークショップ)