連続値入力強化学習におけるGauss-Sigmoidニューラルネットワークの有効性

概要

論文の詳細を見る
主として行動のプランニングに用いられてきた強化学習は、ニューラルネットワークと組み合わせることにより、センサからモータまでの一連の処理を総合的に学習することが可能となる。しかし、この組み合わせはBoyanらにより、学習を不安定に導くと指摘された[1]。これに対し、R8Fネットワークなどの局所的な情報表現の使用が有効であることが示されているが、これらの方法は、大域的な情報を表現する手段を持っておらず、その分、汎化能力が劣る。本稿では、RBFネットワークの出力をシグモイドユニットの入力として用いるGauss-Sigmoidニューラルネットワーク(NN)を強化学習に用い、Boyanらが用いたhill-car問題に適用した。その結果、シグモイド型 NNと比較して非線形関数近似能力が優れ、シグモイドユニットを用いても安定した学習が行えること、RBFネットワークと比較して、Gauss-Sigmoid NNが学習を通して大域的な情報表現を獲得し、その上で汎化が有効に働く可能性を示した。
社団法人電子情報通信学会の論文
2001-03-16