複数の状態予測と報酬予測モデルによる強化学習と行動目標の推定(バイオサイバネティックス,ニューロコンピューティング)

概要

論文の詳細を見る
本研究では,複数の状態予測モデルと報酬予測モデルの組合せによって出力が決定されるモジュール強化学習方式"Combinatorial Model-based Reinforcement Learning (CMRL)"を提案する.CMRLはそれぞれ複数の状態予測モデル・報酬予測モデルとコントローラにより構成される.まず予測値の正確さにより状態予測モデルと報酬予測モデルの組が選ばれる.そして選ばれた組に対する各コントローラのTD誤差が計算され,誤差の2乗値が小さかったものの制御出力値が採用される.提案方式によって,同一のダイナミックスのもとで報酬関数が切り換わるような場合でも適切なコントローラの選択が可能になる.更にCMRLのモジュール構造によって,相手の運動軌道から報酬関数,つまり行動の意図を推定する見まね学習方式を提案する.相手の用いているモジュールの系列を己が獲得しているモデルを用いて推測を行うため,両者のパラメータが異なる場合であっても,制御可能な範囲で見まねを行うことができる.
社団法人電子情報通信学会の論文
2004-02-01