言語測度に基づいた最適スーパバイザの強化学習

元データ 2004-06-04

概要

最近,形式言語に対して測度の概念が導入され,その測度に基づく最適スーパバイザの設計法が提案されている.しかしこの方法を適用するためには測度に関する情報が既知でなければならない.既知でない場合には,何らかの学習方法を導入する必要がある.一方,環境への適応性,柔軟性を持った制御手法を行うために強化学習が応用されている。強化学習では,環境から受け取る報酬をもとに学習者はよりよい行動政策を獲得できるように学習を行う.本報告では,言語測度に基づくスーパバイザの強化学習を提案する.特に,事象の生起を禁止したときのコストも考慮している.

著者

潮 俊光 大阪大学大学院基礎工学研究科
山崎 達志 摂南大学工学部
山崎 達志 関西学院大学理工学部
山崎 達志 摂南大学理工学部
山崎 達志 大阪大学 大学院 基礎工学研究科
谷口 和隆 大阪大学大学院 基礎工学研究科
谷口 和隆 大阪大学大学院基礎工学研究科

関連論文

▼もっと見る