複素数で表現された行動価値を用いるQ-learning(人工知能,認知科学)

スポンサーリンク

概要

論文の詳細を見る
複素数で表現された行動価値を用いるQ-learningが,行動価値の簡単な逐次更新によって文脈依存性を表現し,部分観測マルコフ決定過程環境での学習の一手法となることを示す.制約されたセンサのもとでの強化学習のために,部分観測マルコフ決定過程環境における学習手法の研究が進んでいる.しかし,現在研究されている多くの手法は,十分な履歴を記憶するメモリや十分な計算資源を仮定するものが多かった.本論文では,簡単な逐次更新によって文脈依存性を表現する手法に着目し,Q-learningの行動価値を複素数値化したQ-learningを提案する.変数を複素数にするという手法は,ニューラルネットワークの分野において時系列信号の処理に有効であると注目されている.強化学習においても,複素数値化された行動価値が文脈依存性を表現できると期待される.グリッドワールド環境での実験と,不完全なセンサをもつAcrobotの振上げタスクの二つの実験を通して,提案手法の有効性を確認した.
2008-05-01

著者

関連論文

もっと見る

スポンサーリンク