重点サンプリングを用いた複数強化学習器の同時学習

スポンサーリンク

概要

論文の詳細を見る
一般に学習系において,その複雑さは学習の探索空間を規定する.パラメタが少なく内部変数を持たない単純な学習器は性能は悪いがすぱやく学習でき,逆に多くのパラメータや内部変数を持つ学習器は最終的には性能は良いが,学習に時間を要する.どのようなパラメタや内部変数をどの程度使用すべきかといったことを事前に決定するのは困難であり,むしろ異なる数のパラメタや内部変数を持つ複数の学習器を問題に応じて使い分けるべきである.本研究では,複数の学習器を持つ行動系で選ぱれた単一の学習器の行動方策によって得られた経験から,選択されていない他の学習器も並行して学習を行い,かつ全ての学習器の行動方策を正しく評価し選択する枠組を重点サンプリング法の理論的枠組をもとに定式化する.これにより,単一のハードウエアに対し複数の学習器が協調・競合的に学習を行い,全体として短時間で高い性能を獲得できる.一部の状態変数が観測できない倒立振子の問題に提案手法を適用し,有効性を検証する.
2003-03-12

著者

関連論文

もっと見る

スポンサーリンク