強化学習における報酬割当ての理論的考察
スポンサーリンク
概要
- 論文の詳細を見る
Reinforcement learning is a kind of machine learning. It aims to adapt a system to a given environment according to rewards. We consider profit sharing that is a representative reinforcement learning method. A rule sequence applied between reward and reward is called an episode. Profit sharing reinforce rules at each episode. A function that shares the reward between rules of an episode is called a reinforcement function. Conventional work has used ad hoc functions. This paper analyzes reinforcement functions theoretically. First, we examine what a reinforcement function is locally reasonable. We call a rule is ineffective if and only if it is on a detour for any episodes. It is locally reasonable that ineffective rules are suppressed than any effective rules. We have derived the necessary and sufficient condition to suppress any ineffective rules as following inequality ; <LΣ>^^^w___<j=i><f_<i-1> (i=1,…,W). where, L is the maximum number of conflicting effective rules, W is the maximum length of episodes, and f_j is the value of reinforcement for the j-th previous rule applied before the reward. We call this as the ineffective rule suppression theorem. We demonstrate that a profit sharing can learn ineffective rules when the condition is violated. Second, we examine whether reinforcement functions satisfying the condition are globally reasonable. We call a collection of effective rules as a rule selection plan if and only if it selects at most one effective rule per one state. It is globally reasonable that a plan gains reward continuously. We show that the condition is also necessary and sufficient to learn a rewardfull plan. We call this as the rewardfull plan acquisition theorem. We also demonstrate that a profit sharing can learn rewardless plans when the condition is violated.
- 社団法人人工知能学会の論文
- 1994-07-01
著者
関連論文
- ウェット実験に基づく人工遺伝子回路の設計と制御(システムバイオロジー,システムバイオロジー,一般)
- 論文特集「進化計算のフロンティア」にあたって
- 実数値 GA によるタンパク質立体構造の 2 層比較(バイオインフォマティクス)(情報システム論文)
- タンパク質立体構造の2層比較
- 遺伝的立体構造アラインメント : マルチプル立体構造アラインメントへむけて
- GAによる立体構造アラインメント
- 形質の遺伝を重視した遺伝的アルゴリズムに基づく巡回セールスマン問題の解法
- 特集「バイオインフォマティクスの世界」にあたって(「バイオインフォマティクスの世界」)
- フェムト秒パルス波形探索システム
- 創発システム研究がめざすもの
- 自律DNA分子計算--in vitroインテリジェンスの構築 (SSI2009特集--次世代のシステム知を拓くシステム・情報技術)
- 最小騙し問題を用いた世代交代モデルの解析
- 実数値GAにおけるシンプレクス交叉の提案
- GAにおける形質遺伝過程の可視化と解析
- 実数値GAにおけるシンプレクス交叉の提案
- 実数値GAにおけるシンプレックス交叉の提案
- 実数値GAにおけるシンプレクス交叉の提案と解析
- 探索オペレータの機能分担を考慮した進化型計算による関数最適化
- 最適解の位置にロバストな実数値GAを実現する Toroidal Search Space Conversion の提案
- 実数値GAとその応用
- 実数値GAとその応用
- タンパク質の新規サブドメインの提案-二次構造、モジュールを超える新たな構造単位の定義に向けて-
- タンパク質の新規サブドメインの提案--二次構造、モジュールを超える新たな構造単位の定義に向けて (ニューロコンピューティング)
- 分子メモリーと分子機械の実現と利用法
- 分子計算のための一点から開始される探索法
- 局所負荷に基づきエージェントのLoop-Free移動制約を適切に使い分けるAntNetの提案と評価(コンカレント工学)
- データマイニング技術を用いた組換えタンパク質の発現量解析
- 時系列クラスタリングのためのスパイダーアルゴリズム(機械学習によるバイオデータマイニング)
- 時系列クラスタリングのためのスパイダーアルゴリズム(機械学習によるバイオデータマインニング)
- 構成的生物学 : つくることで理解する生物学
- 特集「進化の周辺」の編集にあたって
- リンクの相対負荷とエージェント移動の制約を考慮したフェロモン揮発法の提案と評価(ネットワーク)
- 特集「遺伝的アルゴリズムの発展」の編集にあたって(遺伝的アルゴリズスの発展)
- MDP集団の上におけるマルチタスク強化学習
- 博士論文に見る新しい研究の流れ(「人工知能分野における博士論文」)
- 郷モジュールに基づくフォールディングシミュレーション
- 人工生命によるミーム概念のモデル化と分析
- IJCAI-91報告
- 動的環境における強化学習型マルチエージェント系の協調
- マルチタスク指向の強化学習エージェントに関する一考察
- ベイジアンネットワーク上の強化学習のケペラロボットシミュレータへの応用
- 強化学習における習得済政策の連結手法
- GAによるパレート最適な決定木集合の生成
- 属性の識別能力の局所性を考慮した確率的決定木の構築
- 分子間相互作用における分子の挙動解析
- 高次結合バックプロパゲーションネットワークの能力について
- ベイジアンネットワーク上の強化学習のロボットナビゲーションへの応用
- 機能分担仮説に基づくGAの設計指針
- ヒット曲予測に用いる進化型モデルの構築に向けたデータ考察
- 進化型モデルによるヒット曲予測 : 予測に向けた分析
- 「Lifelong Reinforcement Learning」の確立を目指して
- 遺伝的アルゴリズムによるペトリネットの諸問題の近似解法
- 時間割問題の進化的解法
- 共通説明構造の汎化階層上のトップダウン探索による不完全領域理論下での妥当なマクロルールの獲得
- EBLの複数例題下への拡張
- 形質遺伝を考慮した順序交叉に基づくジョブショップスケジューリング問題の解法
- 環境同定を考慮した経験強化型学習システム
- 探索領域を適応的に調整する遺伝的アルゴリズムによるフロアプラン設計問題の一解法
- 対戦型ゲームにおける戦略の共進化
- 自律DNA分子計算 : in vitro インテリジェンスの構築
- 交通システムにおける適応的信号制御
- 強制操作とタブ戦略を導入した進化型計算による発電プラント起動スケジューリング
- MarcoPolo : 報酬獲得と環境同定のトレードオフを考慮した強化学習システム
- l-確実探査法:エージェントによる環境同定のための行動選択戦略 : k-確実探査法の不確実性下への拡張
- MarcoPolo - 報酬獲得と環境同定のトレードオフを考慮した学習システム
- エージェントの学習 (「エージェントの基礎と応用」)
- k-確実探査法 : 強化学習における環境同定のための行動選択戦略
- 強化学習の特徴と発展の方向
- 強化学習における報酬割当ての理論的考察
- 強化学習における環境同定と経験強化のトレードオフ
- 遺伝的アルゴリズムによるパレート最適な決定木集合の生成
- BntNetLとそのふくそう時における能力の評価
- 双方向AntNetによる適応型ネットワーク経路制御の提案
- 不完全知覚環境下での強化学習
- 多目的GAによるポートフォリオ選択問題への接近
- 遺伝的アルゴリズムに基づく多目的最適化における棲分け
- DNA Computing における望ましいDNA配列の設計
- ファンダメンタル情報を用いる合理的取引エージェント
- 強化学習によるマルチエージェント間の協調
- 進化型計算のDNA実装とその応用
- アクエアスコンピューティング : 生体分子による並列メモリの実現
- 博士論文に見る新しい研究の流れ(人工知能分野における博士論文)
- 分子メモリー--アクエアスコンピュータの分子生物学的実現 (特集 分子コンピューティング--理論と実験の最前線)
- DNAコンピューティング
- 分子メモリの原理と大容量化の試み
- モンテカルロ法による遺伝的オペレータの機能解析
- Bayesian Network 上の強化学習
- 知識を持つエージェントの強化学習
- 部分観測マルコフ決定過程下での強化学習 : 確率的傾斜法による接近
- 強化学習の技術的現状と理論的課題
- Barto, A. G., Bradtke, S. J. and Singh, S. P. : Learning to act using real-time dynamic programming, Artificial Intelligence, Vol.72, Nos.1-2, pp.81-138 (1995).
- 形質遺伝を考慮した遺伝的アルゴリズムに基づく関数最適化
- 遺伝的アルゴリズムによる探索と学習
- 遺伝的アルゴリズムの工学的応用 (「遺伝的アルゴリズムの新しい潮流」)
- De Johng, K. and Spears, W. : On The State of Evolutionary Computation, Proc. 5th Int. Conf. on Genetic Algorithms (ICGA '93), pp.618-623 (1993).
- 強化学習
- 用語解説
- 遺伝的アルゴリズムの基礎と応用〔IV〕
- 遺伝的アルゴリズムによる組合せ最適化(自然界に学ぶアルゴリズム)
- 拡張EBLに基づく問題解決マクロテーブルの獲得