リカレントネットを用いた強化学習による探索行動と多値記憶の創発

スポンサーリンク

概要

論文の詳細を見る
著者らは,ニューラルネットを用いた強化学習を行うことでさまざまな機能が合目的的かつ調和的に創発することを提唱してきた.本稿では,記憶を利用した決定論的な探索行動の創発に焦点を当てる.ゴールが見えない3×3のランダム迷路タスクのQ学習において,リカレントネットを導入することでエージェントは過去の経験を考慮したより適切なQ値を表現し,より適切な探索行動を学習することができること,さらに,未知の環境でもある程度有効に働くことを確認した.また,分岐位置がランダムに出現する単純な環境での学習では,最適行動実現に必ずしも必要ではないが,適切なQ値を表現するために多値の分岐位置を記憶するようになることを示した.
2012-03-07

著者

関連論文

もっと見る

スポンサーリンク