MarcoPolo : 報酬獲得と環境同定のトレードオフを考慮した強化学習システム
スポンサーリンク
概要
- 論文の詳細を見る
Reinforcement learning is a kind of machine learning. It aims to adapt an agent to a given environment with a clue to rewards. Profit sharing (PS) can get rewards efficiently at an initial learning phase. However, it can not always learn an optimum policy that maximizes rewards per an action. Though Q-learning is guaranteed to obtain an optimum policy, it needs numerous trials to learn it. On Markov decision processes (MDPs), if a correct environment model is identified, we can derive an optimum policy by applying Policy Iteration Algorithm (PIA). As an efficient method for identifying MDPs, k-Certainty Exploration Method has been proposed. We consider that ideal reinforcement learning systems are to get some rewards even at an initial learning phase and to get mere rewards as the identification of environments proceeds. In this paper, we propose a unified learning system : MarcoPolo which considers both getting rewards by PS or PIA and identifying the environment by k-Certainty Exploration Method. MarcoPolo can realize any tradeoff between exploitation and exploration through the whole learning process. By applying MarcoPolo to an example, its basic performance is shown. Moreover, by applying it to Sutton's maze problem and its modified version, its feasibility on more realistic domains is shown.
- 社団法人人工知能学会の論文
- 1997-01-01
著者
関連論文
- ウェット実験に基づく人工遺伝子回路の設計と制御(システムバイオロジー,システムバイオロジー,一般)
- 論文特集「進化計算のフロンティア」にあたって
- 実数値 GA によるタンパク質立体構造の 2 層比較(バイオインフォマティクス)(情報システム論文)
- タンパク質立体構造の2層比較
- 遺伝的立体構造アラインメント : マルチプル立体構造アラインメントへむけて
- GAによる立体構造アラインメント
- 形質の遺伝を重視した遺伝的アルゴリズムに基づく巡回セールスマン問題の解法
- 特集「バイオインフォマティクスの世界」にあたって(「バイオインフォマティクスの世界」)
- フェムト秒パルス波形探索システム
- 創発システム研究がめざすもの
- 自律DNA分子計算--in vitroインテリジェンスの構築 (SSI2009特集--次世代のシステム知を拓くシステム・情報技術)
- 最小騙し問題を用いた世代交代モデルの解析
- 実数値GAにおけるシンプレクス交叉の提案
- GAにおける形質遺伝過程の可視化と解析
- 実数値GAにおけるシンプレクス交叉の提案
- 実数値GAにおけるシンプレックス交叉の提案
- 実数値GAにおけるシンプレクス交叉の提案と解析
- 探索オペレータの機能分担を考慮した進化型計算による関数最適化
- 最適解の位置にロバストな実数値GAを実現する Toroidal Search Space Conversion の提案
- 実数値GAとその応用
- 実数値GAとその応用
- タンパク質の新規サブドメインの提案-二次構造、モジュールを超える新たな構造単位の定義に向けて-
- タンパク質の新規サブドメインの提案--二次構造、モジュールを超える新たな構造単位の定義に向けて (ニューロコンピューティング)
- 分子メモリーと分子機械の実現と利用法
- 分子計算のための一点から開始される探索法
- 局所負荷に基づきエージェントのLoop-Free移動制約を適切に使い分けるAntNetの提案と評価(コンカレント工学)
- データマイニング技術を用いた組換えタンパク質の発現量解析
- 時系列クラスタリングのためのスパイダーアルゴリズム(機械学習によるバイオデータマイニング)
- 時系列クラスタリングのためのスパイダーアルゴリズム(機械学習によるバイオデータマインニング)
- 構成的生物学 : つくることで理解する生物学
- 特集「進化の周辺」の編集にあたって
- リンクの相対負荷とエージェント移動の制約を考慮したフェロモン揮発法の提案と評価(ネットワーク)
- 特集「遺伝的アルゴリズムの発展」の編集にあたって(遺伝的アルゴリズスの発展)
- MDP集団の上におけるマルチタスク強化学習
- 博士論文に見る新しい研究の流れ(「人工知能分野における博士論文」)
- 郷モジュールに基づくフォールディングシミュレーション
- 人工生命によるミーム概念のモデル化と分析
- IJCAI-91報告
- 動的環境における強化学習型マルチエージェント系の協調
- マルチタスク指向の強化学習エージェントに関する一考察
- ベイジアンネットワーク上の強化学習のケペラロボットシミュレータへの応用
- 強化学習における習得済政策の連結手法
- GAによるパレート最適な決定木集合の生成
- 属性の識別能力の局所性を考慮した確率的決定木の構築
- 分子間相互作用における分子の挙動解析
- 高次結合バックプロパゲーションネットワークの能力について
- ベイジアンネットワーク上の強化学習のロボットナビゲーションへの応用
- 機能分担仮説に基づくGAの設計指針
- ヒット曲予測に用いる進化型モデルの構築に向けたデータ考察
- 進化型モデルによるヒット曲予測 : 予測に向けた分析
- 「Lifelong Reinforcement Learning」の確立を目指して
- 遺伝的アルゴリズムによるペトリネットの諸問題の近似解法
- 時間割問題の進化的解法
- 共通説明構造の汎化階層上のトップダウン探索による不完全領域理論下での妥当なマクロルールの獲得
- EBLの複数例題下への拡張
- 形質遺伝を考慮した順序交叉に基づくジョブショップスケジューリング問題の解法
- 環境同定を考慮した経験強化型学習システム
- 探索領域を適応的に調整する遺伝的アルゴリズムによるフロアプラン設計問題の一解法
- 対戦型ゲームにおける戦略の共進化
- 自律DNA分子計算 : in vitro インテリジェンスの構築
- 交通システムにおける適応的信号制御
- 強制操作とタブ戦略を導入した進化型計算による発電プラント起動スケジューリング
- MarcoPolo : 報酬獲得と環境同定のトレードオフを考慮した強化学習システム
- l-確実探査法:エージェントによる環境同定のための行動選択戦略 : k-確実探査法の不確実性下への拡張
- MarcoPolo - 報酬獲得と環境同定のトレードオフを考慮した学習システム
- エージェントの学習 (「エージェントの基礎と応用」)
- k-確実探査法 : 強化学習における環境同定のための行動選択戦略
- 強化学習の特徴と発展の方向
- 強化学習における報酬割当ての理論的考察
- 強化学習における環境同定と経験強化のトレードオフ
- 遺伝的アルゴリズムによるパレート最適な決定木集合の生成
- BntNetLとそのふくそう時における能力の評価
- 双方向AntNetによる適応型ネットワーク経路制御の提案
- 不完全知覚環境下での強化学習
- 多目的GAによるポートフォリオ選択問題への接近
- 遺伝的アルゴリズムに基づく多目的最適化における棲分け
- DNA Computing における望ましいDNA配列の設計
- ファンダメンタル情報を用いる合理的取引エージェント
- 強化学習によるマルチエージェント間の協調
- 進化型計算のDNA実装とその応用
- アクエアスコンピューティング : 生体分子による並列メモリの実現
- 博士論文に見る新しい研究の流れ(人工知能分野における博士論文)
- 分子メモリー--アクエアスコンピュータの分子生物学的実現 (特集 分子コンピューティング--理論と実験の最前線)
- DNAコンピューティング
- 分子メモリの原理と大容量化の試み
- モンテカルロ法による遺伝的オペレータの機能解析
- Bayesian Network 上の強化学習
- 知識を持つエージェントの強化学習
- 部分観測マルコフ決定過程下での強化学習 : 確率的傾斜法による接近
- 強化学習の技術的現状と理論的課題
- Barto, A. G., Bradtke, S. J. and Singh, S. P. : Learning to act using real-time dynamic programming, Artificial Intelligence, Vol.72, Nos.1-2, pp.81-138 (1995).
- 形質遺伝を考慮した遺伝的アルゴリズムに基づく関数最適化
- 遺伝的アルゴリズムによる探索と学習
- 遺伝的アルゴリズムの工学的応用 (「遺伝的アルゴリズムの新しい潮流」)
- De Johng, K. and Spears, W. : On The State of Evolutionary Computation, Proc. 5th Int. Conf. on Genetic Algorithms (ICGA '93), pp.618-623 (1993).
- 強化学習
- 用語解説
- 遺伝的アルゴリズムの基礎と応用〔IV〕
- 遺伝的アルゴリズムによる組合せ最適化(自然界に学ぶアルゴリズム)
- 拡張EBLに基づく問題解決マクロテーブルの獲得