選択的不感化ニューラルネットを用いた連続状態行動空間におけるQ学習(一般講演,機械学習によるバイオデータマインニング,一般)

スポンサーリンク

概要

論文の詳細を見る
状態空間だけでなく行動空間も連続である場合にQ学習を適用する際には,価値関数の近似が必要となるが,RBFNのような既存の近似手法を用いると,学習に非常に時間がかかるだけでなく,最適行動を選択するのに必要な計算量が大きく増加してしまう.本報告では,選択的不感化ニューラルネット(SDNN)を近似器として用い,出力層の表現を工夫することによって,行動の連続化に伴う学習効率の低下や計算コストの増加を抑えることを目指す.アクロボットの振り上げ課題に関して数値実験を行ったところ,計算量の増加は抑えられ,また従来のSDNNを用いた場合と比べて,学習効率が向上することがわかった.
2011-06-16

著者

関連論文

もっと見る

スポンサーリンク