適応的な状態分割を行うQ-Learningにおける状態数の調整方法(人工知能, 認知科学)

概要

論文の詳細を見る
本論文は,強化学習の代表的な手法であるQ-learningにおいて,学習エージェントが自律的に環境の状態を分節化する手法に,状態数の抑制と,状態分割の促進を加えた場合の効果について述べる.学習エージェントが行動する環境に対し,エージェントの設計者が明示的な状態の境界を与えられない場合,エージェントは学習と同時に,適切な行動に必要な内部離散状態を自律的に獲得する必要がある.この種の方法として,強化信号をもとに状態を分割する簡便な手法(QLASS)が提案されている.しかし,従来の方法は,学習の進行とともに状態数が増えすぎるという問題があった.本論文では,エージェントの各内部離散状態に対し,温度と適格度を定義し,これらの値に応じて,内部離散状態数の抑制,追加,及びランダム行動を促す方法を提案する.本方法を動的な環境を含むいくつかのタスクに用いた結果,強化信号のみを用いる場合に比べて,少ない状態数で同等の学習結果が得られること,また,少ない試行数の学習でも,少ステップでのタスク達成が実現できることが明らかとなった.
社団法人電子情報通信学会の論文
2003-07-01