時間平均多重連鎖セミ・マルコフ決定過程における修正政策反復法の収束について(学習と制御とその周辺 )