ランダムに出現する2変量目標値に関する停止問題
スポンサーリンク
概要
- 論文の詳細を見る
2変量の目標値(X、Y)か到着率λのPoisson過程によってランダムに1つずつ到着する。到着時点をt_l<t_2<……とするとき(X_<t_i>、Y_<t_i>)、i=1、2、……、は共通のcdfH(x、y)をもつiid変数列とする。目標値(X_t、Y_t)が到着したとき、ここで停止してこれを報酬として受取るか、または、将来にもっと"よい"値が到着することに期待して、この(X_t、Y_t)を流して観察を継続するか、どちらかに。決定しなければならない。計画期問tが与えられたときに"最適の"停止政策を求めよ、という問題を考える。1変量の場合はKarlin(1962)により解かれている、この場合、"最適"とは停止時のX_tを最大にすることである。X_<t_i>、i=1、2、……、を共通の。cdfF(x)をもつiid変数列として[numerical formula]が存在するとする。Karinの結果は次の通り:いままで停止せずに継続してきて、あと残り時間大のときに、以後最適停止政策を用いて期待できる額をu^0(t)とすると(i)u^0(t)は微分方程式u'(t)=λT_F(u(t))、u(o)=0、の単一の解である。(ii)いまX=xが到着していて、あと残り時間がtならば、このときの最適決定は「X〓u^0(t)のときそのときに限り停止する」となる。2変量の場合は"最適"の解釈が問題になるが、この論文では次の接近をとる。1組の"中立"関数u(t)、v(t)、t>0、を予め定めておいて、はじめてX_t〓u(t)、Y_t〓v(t)(ただしtは到着時刻tにおける残り時間)となったときに停止する、という政策だけを考える。いままで停止せずに継続してきて、あと残り時間tのときに、以後"中立"関数u(・)、V(・)により停止するときの、成分変量X、Yからの期待額をそれぞれM_i(t|u(・)、v(・))、i=1、2、とする。この関数の組についてNash均衡を考えることによって、"均衡中立"戦略u*(・)、v*(・)を定義する。(X、Y)のpdfをh(x、y)とすると、u*(・)、v*(・)は連立微分方程式[numerical formula]を解くことによって求められる。H(x、y)について4例を計算している。
- 社団法人日本オペレーションズ・リサーチ学会の論文
著者
関連論文
- アンケート : あなたにとってDPとは(動的計画法)
- 情報とその価値 : ゲームの理論入門
- Topics from the Game of Score Showdown(不確実性理論の経営科学への応用)
- 秘書の問題に関連する非ゼロ和ゲーム
- ノート : 確率変数の和に対する逐次ゲーム
- エントロピー, 情報と決定(エントロピー・モデル)
- 2変量確率変数の和に対する双辺逐次ゲーム
- ランダムに出現する2変量目標値に関する停止問題