可附番状態空間をもつ連続時間マルコフゲームについて
スポンサーリンク
概要
- 論文の詳細を見る
この論文では連続時間マルコフゲームを6つの組(S、A、B、q、r、α)で定義している、ただしS={1、2、・…}は状態空間、AはプレイヤーIの行動空間、BはプレイヤーIIの行動空間、q(・|i、a、b)はS。上の関数で状態変化の推移率、rはS×A×B上の関数でプレイヤーIの利得、αは割引因子で正の実数。このゲームでは各プレイヤーはシステムの状態を連続的に観測し現在の状態iのみで行動a、bを選ぶ。この結果プレイヤーIは利得r(i、a、b)を得て状態iはq(j|i、a、b)にしたがって新しい状態jに移る。プレイヤーIの戦略π=π(t)は{μ_t}で定める、ただし各μ_tは各iに対してA上の確率測度であってtの可測関数である。時にtに無関係ならば定常戦略と呼ばれる。プレイヤーIIに対しても同様に定義されている。よってプレイヤーI、IIが戦略の組(π、σ)を用いたときの推移率は各t≧0に対して次のように定義される。[numerical formula]ただし戦略π、aはそれぞれ{μt}、{λt}によって定められている。このとき推移率q(j|i。t、π、a)の上に適当な条件を課すことによって対応する推移確率f_<ij>(0、t、π、σ)が一意に定まり、ゲームは常に0から出発するものとしてf_<ij>(0、t、π、σ)の代りにf_<ij>(t、πσ)と書くことにする。さらにプレイヤーIの期待利得率は[numerical formula]で定義されるからプレイヤーIの総期待割引利得は[numerical formula]で得られる。またπ*がプレイヤーIの最適戦略とは[numerical formula]が成立することである。同様にしてσ*がプレイヤーIIの最適戦略とは[numerical formula]が成立することであり、[numerical formula]ならばゲームは結着すると呼ばれる。ここではこのようなゲームがある条件のもとで結着し、各プレイヤーは最適な定常戦略をもっていることを示している。
- 社団法人日本オペレーションズ・リサーチ学会の論文
著者
関連論文
- On Equilibrium Point and $\varepsilon$-Equilibrium Point in Noncooperative n-Person Game(Studies on Decision Theory and Related Topics)
- An Equilibrium Theorem for Subdifferential(Discrete and Continuous Structures in Optimization)
- Fenchel duality の応用(非線形解析学と凸解析学の研究)
- Observations on Conditions Assuring int $A+B$ = int$(A + B)$(Mathematical Structure of Optimization Theory)
- A Saddle Point of the Fractional Game (Nonlinear Analysis and Convex Analysis)
- An $\varepsilon$-Equilibrium Point of the Fractional Game (Nonlinear Analysis and Convex Analysis)
- Some Two-Person Zero-Sum Dynamic Game (Nonlinear Analysis and Convex Analysis)
- A Two-Person Zero-sum Game with Fractional Loss Function
- A Non-Cooperative Equilibrium of $n$-person Game with Fractional Loss Functions (Decision Theory and Its Related Fields)
- Weak Convergence for Nonexpansive Set-Valued Mappings(Optimization Theory in Descrete and Continuous Mathematical Sciences)
- On Semicontinuity of Marginal Functions $sup \\ y\in{F(x)}$ and $inf \\ y\in{F(x)}$(Nonlinear Analysis and Convex Analysis)
- On $\varepsilon$-core of a Fuzzy Game with Side-Payments(Optimization Methods for Mathematical Systems with Uncertainty)
- On an optimal strategy of ergodic control(Nonlinear Analysis and Convex Analysis)
- On an $\varepsilon$-Optimal Policy of Continuous Time Markov Decision Processes(MATHEMATICAL OPTIMIZATION AND ITS APPLICATIONS)
- On an $\varepsilon$-optimal Policy in Dynamic Programming with a Discount Factor(Nonlinear Analysis and Mathematical Economics)
- On an $\varepsilon$-optimal policy in dynamic programming with a finite horizon(Nonlinear Analysis and Mathematical Economics)
- On a constrained noncooperative n-person game
- Stochastic games with constraints
- Some solution of a cooperative m-person doscounted Markov game(Studies on Control,Learning and Their Related Topics)
- Markov Game with Expected Average Reward Criterion (Markov Game Theory and Their Relative Topics)
- 停止時間をもつn人非協カマルコフゲームについて (決定過程論とその周辺)
- マルコフゲームヘの学習アルゴリズムの応用 (情報科学の数学的基礎理論と応用)
- 可附番状態空間をもつ連続時間マルコフゲームについて
- 連続時間の非協力n人マルコフゲームについて (数理計画と決定過程論)
- 学習によるパターン分類 (制御過程論 III)
- 学習によるパターン分類について (制御過程論 II)
- 最適秤量問題-1-