強化学習結果の再構築への概念学習の適用
スポンサーリンク
概要
- 論文の詳細を見る
Conventional reinforcement learning has focused on learning in a stable environment. However, an agent may be given another environment which differs from the old environment. Thus, an autonomous agent needs a method to learn efficiently a new policy suited for the new environment. In this paper, we propose a method to adapt to a new environment for an agent which has a task to reach goals. When an agent is provided with a new environment, our method learns a new partial policy using the precondition of agent’s old policy. The precondition of a policy is a condition that says what must be satisfied in order to reach goals by using the policy. Similarly to learning the precondition of an action from the instances of action’s success or failure by using concept learning, our method learns the precondition of a policy from the instances of policy’s success or failure by using concept learning. We describe a method using inductive logic programming (ILP) as a concept learning method. Since ILP provides methods for learning relational knowledge that is not expressible in attribute-value learning, our method can use relational representation for the precondition. We applied our method to a blocks-world problem for evaluation. We have come to conclusion that our method is effective when the cost to carry out the task is high.
- 社団法人 人工知能学会の論文
- 2002-11-01
著者
-
伊藤 英則
名古屋工業大学大学院工学研究科情報工学専攻
-
伊藤 暢浩
愛知工業大学 経営情報科学部
-
伊藤 暢浩
名古屋工業大学 電気情報工学科
-
世木 博久
名古屋工業大学
-
世木 博久
名古屋工業大学工学部知能情報システム学科
-
犬塚 信博
名古屋工業大学知能情報システム学科
-
伊藤 英則
名古屋工業大学知能情報システム学科
-
犬塚 信博
名古屋工業大学
-
松井 藤五郎
名古屋工業大学大学院工学研究科
-
松井 藤五郎
名古屋工業大学:(現)東京理科大学理工学部経営工学科
-
伊藤 英則
名古屋工業大学
関連論文
- 結び目、自己相似などを用いたグラフィック処理について
- Simple Recurrent Network を用いた感性ロボットのインタラクティブ表情表出
- 関節制御の動的受動化とCPGに基づく二足ロボットの歩容生成
- 感性ロボット ifbot の感情空間を用いた感情遷移に伴う表情変化の主観的影響
- セルフキャリブレーションとNN学習によるカラーテクスチャ物体のレンダリング(一般セッション,光と色の解析・表現とその応用)
- 同調・差別化欲求を持つエージェントモデルによる多種循環型流行の発現
- 遺伝的アルゴリズムによるあやとり図形生成 : 紐デザイン処理(2)
- ネットワーク上のワークステーションを用いた並列仮説推論システム
- ワークステーションクラスタを用いた並列仮説推論システム
- 異機種分散環境上の並列仮説推論システム