マルコフ決定過程における TD 法による学習アルゴリズムについて(最適化問題における確率モデルの展開と応用)