強化学習結果の再構築への概念学習の適用
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,目標到達型のタスクを対象としたモデルなし・経験強化型の強化学習に対し,概念学習によって獲得した条件を用いて政策を部分的に修正することにより環境の変化に適応する手法について述べる.従来の強化学習の研究は,環境が不変であるものと仮定して最適な政策(状態観測から行為へのマッピング)を学習する.しかし,実際には,学習された政策が利用される環境はその政策を学習したときの環境とは必ずしも同一ではない.したがって,新しい環境に適した政策を効率的に学習しなおす手法が必要である.これまでに,過去の環境で獲得した政策のうち不都合のあった部分だけを部分的に修正することによって新たな環境に適応する手法が提案されている.本手法では,(前の環境で)学習した政策を新たな環境で用いるための条件をその政策の事前条件としてとらえる.政策事前条件を満たさない状態だけで新しい政策を学習するための強化学習を行い,学習の収束に要するエピソード数を抑制する.政策事前条件は,政策を用いた結果の成功例・失敗例から,概念学習により獲得する.概念学習を用いて経験を一般化することにより,実際に不都合が生じた部分だけでなく,未経験の状態における行動も改善することができる.本論文では,一階述語論理を用いて事例を表現するとともに概念学習に帰納論理プログラミング(ILP)を用い,一階述語論理に基づいた関係表現の利用を可能にしている.本手法の有効性を積み木の問題を用いた実験により確認した.強化学習にはprofit sharingを用い,概念学習にはILPシステムの一つであるProgolを本手法に合わせて変更したものを用いた.実験結果を考察し,本手法はタスクの経験に要する時間的・経済的コストが大きい問題に対して有用であるとの結論を得た.
- 2002-03-01
論文 | ランダム
- Studies on Peptides. XXII. Synthesis of the partially Protected Pentadecapeptide related to Monkey and Human β-Melanocyte-stimulating Hormones
- メチルコバラミン(ビタミンB_アナローグ)による無機水銀の化学的メチル化反応
- 水銀の迅速定量分析法に関する研究
- Studies on Peptides. XVI. Regeneration of Lysine from N^ε-Formyllysine by Aqueous Hydrazine or Hydroxylamine and Their Application to the Synthesis of α-Melanocyte-stimulating Hormone
- Studies on Seven-membered Ring Compounds. XVII. Alkylation of Cycloheptimidazolone and Cyclohepta[b]pyrrolone