期待強化値を考慮した動的強化関数を用いる Profit Sharing
スポンサーリンク
概要
- 論文の詳細を見る
Profit Sharing is one of exploitation oriented reinforcement learning methods and aims to adapt a system to a given environment. In Profit Sharing, an agent learns a policy based on the reward that is received from the environment when it reaches a goal state. It is important to design a reinforcement function that distributes the received reward to each action rule in the policy. If the reinforcement function satisfies the ineffective rule suppression theorem, the reinforcement function is able to distribute more reward to effective rules than ineffective ones, even in the worst case where an ineffective rule is infinitely selected. The value of the reinforcement function, however, decreases exponentially with distance from the goal state. As a result, the agent fails to learn an appropriate policy when the episode length from an initial state to the goal state is relatively long. In this paper, we report a new dynamic reinforcement function considering the expected value of reward which is distributed to each rule. Using our reinforcement function, the expected value of reward distributed to the effective rules becomes larger than that to the ineffective ones. Even when the episode length becomes long, a decrease in the value of the reinforcement function is able to be suppressed, and thus the agent is able to learn an appropriate policy. We apply our reinforcement function to Suttons maze problem, and show its effectiveness.
- 社団法人 電気学会の論文
- 2009-07-01
著者
関連論文
- パルスニューロンモデルを用いたブロック構造ニューラルネットワーク
- 強化学習による複数のメトリックを考慮したQoSルーティングアルゴリズム
- カオス Lagrange 関数法を用いた混合整数最適化手法
- 異なる動特性を有する群による分散型 Particle Swarm Optimization
- マルコフ決定過程下のマルチエージェント強化学習における創発的行動の情報論的解析
- 慣性項を改良した論理演算型 Binary Particle Swarm Optimization
- 状態系列の多重化による改良型アニーリング法のVLSIブロック配置問題への適用
- 期待強化値を考慮した動的強化関数を用いる Profit Sharing
- 統合的最適化システムを用いた自律移動ロボットコントローラの構築
- Particle Swarm Optimization を用いたブロック構造ニューラルネットワークの学習
- 非合理的ルールの期待強化値抑制条件に基づくマルチエージェント強化学習の間接報酬設計
- 同時摂動法を用いたカオス最適化
- パルスニューラルネットワークのための学習率最適化を用いた誤差逆伝播学習法
- 連続タスクにおける強化学習のための報酬設計
- 強化学習における状態空間の漸次的構成法の改善
- 短期的な伝達効率の調節機構を持つパルスニューラルネットワークの自律移動ロボットへの応用
- パルスニューラルネットワークと教師あり学習を用いる自律移動ロボットの順行路走行
- ニューラルネットワークによる重要温度領域推定を用いたシミュレーテッドジャンピング
- パルスニューラルネットワークのための入出力パルスのタイミングを調節する教師あり学習則(バイオサイバネティックス,ニューロコンピューティング)
- マルチエージェントシステムのための階層型モジュール強化学習
- ニューラルネットワークの違いに着目した自律移動ロボットコントローラの性能比較
- パルスニューラルネットワークのための入出力パルスのタイミングを調節する教師あり学習則(一般)
- 故障を考慮したブロック構造ニューラルネットワークの進化的構築
- ティーチングとQ学習を併用した知的車椅子の自律走行
- 適応的な状態分割を行うQ-Learningにおける状態数の調整方法(人工知能, 認知科学)
- 複数環境学習オートマトンネットワークによるITS自律走行制御
- パルスニューラルネットワークにおける破局的な忘却の抑制を考慮したヘブ型学習則
- フローシステムモデルによる分岐構造形成の計算機シミュレーション
- 経験的知識に基づく遺伝子操作を導入したGAによる効率的なモジュール構造型ロボットの迷路巡航学習
- 短期的な伝達効率の調節機構を持つパルスニューラルネットワーク
- B208 セル上に配置されたマルチエージェントによる群集行動分析の一手法(人の流れ)
- ニューラルネットワークによる温度推定に基づく高速化シミュレーテッドアニーリング
- 免疫機構を導入したシミュレーテッドアニ-リングの二次割当問題への応用
- 列型FPGAの低消費電力指向配置・概略配線手法
- A-3-3 階層化クラスタリングを用いた平均場アニーリング
- 活性度に基づく遺伝子評価を導入した遺伝的アルゴリズムによる自律移動ロボットの行動ルール獲得
- ニューラルネットワークを用いた身体構造が処理系に依存する仮想生物の形態進化
- 遺伝子評価を導入した遺伝的アルゴリズムによる自律移動ロボットの行動ルール獲得
- Q学習機能を有する新しい学習オートマトン
- ニューラルネットワークによるシミュレーテッドアニーリングの初期温度推定法
- 契約ネットプロトコルを用いたマルチエージェントによる自律分散型の配電系統事故復旧方式
- マルチエージェント学習を用いた分散電源の協調制御
- 結合離散化勾配系モデルを用いた多目的最適化
- 知的車椅子ロボットにおける環境パラメータを介した協調行動の獲得
- 学習オートマトンによるマルチカーエレベータ制御
- 知的車椅子のための進化型シミュレータと行動統括機構の開発
- セル上に配置されたマリチエージェントによる群集流のシミュレーシュン
- 知的車椅子における環境適応のための状態空間の構成法
- マルチエージェントシステムにおけるデザインパターンを用いたフレームワークの設計
- 強化学習による複数のメトリックを考慮したQoSルーティングアルゴリズム
- 遺伝的アルゴリズムに基づく音声合成のためのスペクトルパタン圧縮法
- 2)VTRによる講義とそのアンケートの結果分析(画像技術応用研究会(第33回))
- VTRによる講義とそのアンケートの結果分析
- 代数方程式の実根分布の巨視的特徴
- エコシステムの薬物濃縮過程に関するフロ-モデル
- 場所の移動を伴う階層エコシステムのフロ-モデル
- 学習オートマトン:強化学習モデル
- N環境付き多入力学習オートマトン
- パルスニューロンモデルを用いたブロック構造ニューラルネットワーク
- 1-1 眼のモデルの試作
- 状態空間の階層構造を考慮した遺伝的アルゴリズムによるVLSI配置手法
- ブロック構造型パルスモードニューラルネットワークのFPGA実装 (産業計測制御研究会 産業計測制御一般)
- 閾値を動的に調整する閾値受理法の二次割当問題への応用 (産業計測制御研究会 産業計測制御一般)
- 積和型sin素子を用いた階層型ネットワークモデル
- 成長を伴う複雑ネットワーク設計手法
- 成長を伴う複雑ネットワーク設計手法の汎用性の一検証 (産業計測制御研究会 産業計測制御一般)
- 複数教師付き学習オートマトンの追跡問題への適用
- 平均場近似計算法を用いた分散型QoSルーティングアルゴリズム
- グラフ分割問題における多教師付き学習オートマトン計算法
- ネットワークコンピューティングシステムの負荷分散問題への学習オー・トマドンの適用
- 関数最適化問題における並列分散型学習オートマトン計算法の適用
- グラフ分割問題のための学習オートマトン計算法
- 分散型強化学習システム : 学習オートマトンのチームモデル
- 通信機能を導入した集団学習オートマトンによる制御学習
- コンピュータネットワーク上のフロー制御と適切なフロー配分
- 可変構造学習オートマトンネットワーク
- 動的な未知環境における学習オートマトンネットワーク
- 多点型離散化時変慣性系モデルを用いた大域的最適化
- 大域的持続探索のための非同期世代交代型 Particle Swarm-Optimization
- ブロック構造型パルスモードニューラルネットワークのFPGA実装
- 閾値を動的に調整する閾値受理法の二次割当問題への応用
- 成長を伴う複雑ネットワーク設計手法の汎用性の一検証
- 距離型cos素子を用いたネットワークモデル
- ネットワーク構造を持つシステムの安定性に対する情報論的解析:ある種の種間競争システムに対する一考察
- 免疫的最適化手法の性能評価
- 免疫的最適化手法 -VLSIフロアプラン設計問題への応用-
- ヒューリスティックな最適化手法とモデリング : 第1回 最適化問題とは
- 「ヒューリスティックな最適化手法とモデリング」の開始にあたって
- ブロック構造ニューラルネットワークのディジタルハードウェア化 (システム研究会 機械学習・知能システム一般)
- 階層的問題分割によるニューラルネットワーク学習法
- 問題分割によるニューラルネットワーク構造決定学習法
- 情報量を導入したニューラルネットワークBP学習法
- Boolean Particle Swarm Optimizationによる巡回セールスマン問題の解法 (システム研究会 確率的最適化技術と機械学習技術の共進化)
- ヒューリスティックな最適化手法とモデリング : 第3回 遺伝的アルゴリズムと差分進化法
- ヒューリスティックな最適化手法とモデリング : 第2回 古典的手法と Particle Swarm Optimization
- ヒューリスティックな最適化手法とモデリング : 第4回(最終回) ヒューリスティック手法を用いたモデリング
- Boolean Particle Swarm Optimization の二次割当問題への応用
- 初期離散化幅の調整を伴わないカオス最適化手法
- 成長を伴う複雑ネットワーク設計手法
- 満足化トレードオフ法とSOMを用いた放射性廃棄物地層処分における緩衝材最適設計