強化学習における状態空間の自律的構成方法
スポンサーリンク
概要
- 論文の詳細を見る
強化学習は、環境から与えられる報酬をたよりにエージェント自らが最適な行動ルールを学習する。学習する行動ルールはエージェントが認識できる状態に基づいて決まるため、最適な状態空間の構成ができていなければ最適な行動ルールを学習することはできない。この問題を解決する方法としてエージェント自身が自律的に状態空間を分割する手法がある。本論文では、エージェントが状態空間を自律的に構成する手法として、線形近似を使った状態変化の統計的予測モデルに基づく状態空間の分割を用いる。環境が変化する場合に、この手法で状態空間の構築を行うための改良について述べる。また、改良した手法をカートアンドポール問題で適用した結果について考察する。
- 2001-01-04
著者
関連論文
- 検索のコンテキストによるブックマーク再検索の効率化(セッション1:web・ブックマーク)
- 検索の文脈を利用して再検索を容易にするブックマークシステムの提案
- 検索の文脈を利用して再検索を容易にするブックマークシステムの提案 (「Web Intelligence」および一般発表)
- 協調型デマンドバスの有効性について(セッション7)(テーマ:モバイルコンピューティング,ITS,放送コンピューティング)
- ネットワークが創発する知能 : 第1回ワークショップをふりかえる(ネットワークが創発する知能)
- D-15-43 低速度回線遠隔授業における副回線の利用(2) : 提示画面の制御
- 遠隔授業におけるレスポンスアナライザ(3)
- 遠隔授業におけるレスポンスアナライザ(3)
- 遠隔講義におけるレスポンスアナライザ利用についての一検討
- 強化学習における状態空間の自律的構成方法
- 強化学習における状態空間の自律的構成方法
- フォーラム 複雑ネットワーク・シミュレーションにおける模倣から創造へ (特集 ネットワークが創発する知能)
- Webベース教材再利用システム : 「Web教材の森」
- 進化するウェブベース教材配信システム
- リンクマイニング
- 関連リンクの制御によるWeb教材のナビゲーション支援
- コミュニティウェブソフトウェアにおけるアクティブマイニング
- コミュニティウェブソフトウェアにおけるアクティブマイニング(「アクティブマイニング」及び一般)
- E-17 コミュニティウェブにおける掲示板からのトピック抽出(情報抽出,E.自然言語・文書)
- コミュニティウェブを支援する InterMediator エージェントの開発
- ソーシャルブックマークにおける登録共起関係を用いたブックマークの推薦(セッション1:web・ブックマーク)
- 研究支援のためのソーシャルブックマーキングサービスの開発(セッション4:人と人とのつながり)
- 協調型デマンドバスの有効性について(セッション7)(テーマ:モバイルコンピューティング,ITS,放送コンピューティング)
- ダイナミック・ルーティング・ネットワークによる属性値学習 (特集「人工知能における論理の新たな展開」)
- コミュニティウェブソフトウェアにおけるアクティブマイニング (知識ベースシステム研究会(第60回) 人工知能基礎論研究会(第52回) 小特集:「データマイニング」および一般) -- (アクティブマイニング特集)
- 優れた授業実践のための7つの原則に基づく授業支援システムの要求分析
- 複雑ネットワーク・シミュレーションにおける模倣から創造へ
- InterMediatorエージェントによるe-ビジネスの支援 (特集 HAI(Human-Agent Interaction)および一般発表) -- (HAIセッション4 事例研究)
- 優れた授業実践のための7つの原則に基づく授業支援システムMoodleの機能拡張(教育・学習のICT化支援/一般)
- 授業支援システムの小テストマイニングによる学習つまずき検出
- OS-12 ネットワークが創発する知能(オーガナイズドセッション報告,2012年度人工知能学会全国大会(第26回))
- プログラミング演習支援システムにおける学習状況把握機能の提案
- ソーシャルメディアにおける情報共鳴のエージェントベースシミュレーション
- OS-14 ネットワークが創発する知能(オーガナイズドセッション,2013年度人工知能学会全国大会(第27回))
- ネットワークが創発する知能
- プログラミング演習のための授業支援システムにおける学習状況把握機能の実現