連続行動空間への適用を考慮したSwitching強化学習
スポンサーリンク
概要
- 論文の詳細を見る
Reinforcement Learning (RL) attracts much attention as a technique of realizing computational intelligence such as adaptive and autonomous decentralized systems. In general, however, it is not easy to put RL into practical use. This difficulty includes a problem of designing a suitable action space of an agent, i.e., satisfying two requirements in trade-off: (i) to keep the characteristics (or structure) of an original search space as much as possible in order to seek strategies that lie close to the optimal, and (ii) to reduce the search space as much as possible in order to expedite the learning process.In order to design a suitable action space adaptively, we propose switching RL model to mimic a process of an infants motor development in which gross motor skills develop before fine motor skills. Then, a method for switching controllers is constructed by introducing and referring to the “entropy”. Further, through computational experiments by using robot navigation problems with one and two-dimensional continuous action space, the validity of the proposed method has been confirmed.
著者
関連論文
- 記号的2値符号化スキームに基づいた動的計画法の代数計算による効率化
- 1209 斜面横断時における電動車いすの直進走行システム(OS7-1 福祉とモビリティ,OS7 福祉・バリアフリー,次世代交通システム,オーガナイズド・セッション)
- 強化学習を用いた電動車いすのワンボタン制御 (「機械学習とその応用」および一般発表)
- B-6-37 マルチチャネル無線アクセス網におけるチャネル割当てスケジューリングのための平均伝送レート推定方法の提案(B-6.ネットワークシステム,一般セッション)
- ゲーム理論と進化ダイナミクス-人間関係に潜む複雑系, 生天目章著, 出版社 森北出版, 発行 2004年4月, 全ページ 278頁, 価格 4,500円, ISBN4-627-85031-X
- 4B-4 並列化実装した動的計画法による最適なエレベータ運行ルールの計算(最適化問題,一般セッション,ソフトウェア科学・工学)
- 1P1-1F-E2 CPG と脊髄反射モデルを用いた 2 足歩行運動
- 創発システム研究がめざすもの
- 配送計画問題に対する分散型メタヒューリスティクスの構成
- 6-10.エネルギーシステムの最適化に関する研究((2)省エネルギー評価2,Session 6 省エネルギー)
- 配送計画問題に対する解空間の分解に基づく分散型メタヒューリスティック解法
- 配送計画問題に対する探索空間の分割に基づく分散型探索アルゴリズムの構成
- Pickup and Delivery 問題の数理計画モデルと遺伝的アルゴリズムに基づく解法
- 資源循環システムの自律分散型モデルとシミュレーションによる数値的考察
- 階層型自律分散モデルを用いた高速道路シミュレーションにおける運転者の意思決定
- 階層型自律分散モデルによる高速道路交通シミュレーション
- 資源循環システムのダイナミクスに関する基礎的考察
- クラシファイアシステムを用いた加熱炉圧延スケジューリングの最適化
- 『企業情報システムの過去・現在・未来』の特集にあたって(企業情報システムの過去・現在・未来特集号)
- 混合感度問題におけるコントローラの進化的設計
- セルオートマトンの状態遷移則の進化的獲得および2次元搬送システムへの適用
- モジュール型強化学習における適応的状態空間構成法
- フレキシブルショップ・スケジューリング問題の数理計画モデルに基づくハイブリッド解法
- クレーン物流計画問題のシミュレーション・ベースによる最適化
- フレキシブルショップ問題への遺伝的機械学習アプローチ : リアルタイム・スケジューリングのためのルール獲得法(学習)(進化的計算)
- 性淘汰遺伝的アルゴリズムの並列化
- エレベータ運行計画問題の静的最適化モデルと分枝限定法
- リアルタイムスケジューリングに対する遺伝的機械学習アプローチ
- GAによる移動ロボットの構造と行動の創発
- どこでも無線LAN環境「おかもちくん」構築のための予備的考察
- 参照ベクトルを用いたソースコード間の類似性検出
- 分散意思決定問題のモデル化と遺伝アルゴリズムの適用法
- 分散型意思決定問題の自律分散モデルと進化型計算の適用法
- 分散型生産システムにおける計画作成問題のモデル化と解法
- 非正規目的関数のもとでの並列機械スケジューリング問題-重みつき納期ずれ和の最小化-
- 解候補の遺伝子表現を適応的に探索する共進化型遺伝的アルゴリズム
- POMDPsでの強化学習における状態フィルタ
- 強化学習における状態フィルタの提案と一実現方法
- 2302 斜面横断時における電動車いすの直進走行システムII(OS7-1:福祉・バリアフリー,次世代交通システム,OS7:福祉・バリアフリー,次世代交通システム,オーガナイズド・セッション(OS),第18回交通・物流部門大会(TRANSLOG2009))
- 自律構築型RBFニューラルネットを用いた強化学習における状態空間構築法の比較検討
- 強化学習エージェント間におけるコミュニケーションの創発に関する研究
- モジュラー強化学習の一般化と比較検討
- 能動型探索アルゴリズムによる加工制御パラメータ調整の自動化
- Application of Self-Organizing Maps to the Segmentation of Color Images
- 1228 ジャイロ搭載型球体ロボットにおける外殻位置と内部ニューテーションの同時制御(GS-10 先端制御)
- システム設計への創発的アプローチ
- スケジューリング・ルール選択における状態フィードバックの試み
- 進化型計算の新たな展開
- 熱力学的選択ルールを用いた巡回セールスマン問題の遺伝的解法
- 遺伝アルゴリズム - V - GAの拡張
- エレベータ運行計画問題に対する動的計画法の一構成と状態遷移モデルの縮約による効率化
- 『堅く柔らかく…数理計画アプローチ再訪』の特集にあたって(堅く柔らかく…数理計画アプローチ再訪)
- 遺伝的機械学習によるエレベータ運行ルールの獲得手法
- ハイブリッド・アプローチによる最適化 : 数理計画モデルをベースとしたフレキシブルショップ・スケジューリングを例として(鉄鋼におけるシステム最適化技術の展開)
- サポートベクトルマシンの学習の高速化とファジィクラシファイアとの性能比較
- 楕円領域を持つファジィクラシファイアのロバスト化
- 遺伝的機械学習によるスケジューリング・ルールの生成法 -有限バッファ二機械フローショップ問題の場合-
- 高周波部分共振DCリンク電力変換装置の波形改善法
- 非正規目的関数を含む多目的並列機械型スケジューリング問題のモデル化とその遺伝アルゴリズムによる解法
- 連続行動空間への適用を考慮したSwitching強化学習
- 分枝限定法によるエレベータ運行計画問題の静的最適化 : 連続時間モデルに基づく分枝限定アルゴリズムの一構成方法
- 工学的問題解決のための創発的計算法の構成
- 逆問題としての設計論と創発的計算法の適用
- 進化的手法を用いた多関節移動ロボットの設計
- F06-4 多目的スケジューリング問題に対するパレート最適解集合の生成法(F06 進化的計算法による多目的最適化の新展開)(フォーラム)
- 遺伝的機械学習アルゴリズム
- 非正規目的関数を含む多目的並列機械型スケジューリング問題のモデル化とその遺伝アルゴリズムによる解法
- B-6-36 コンテンツキャッシュへのホップ数を考慮したインネットワーククエリ誘導方式の性能評価(B-6.ネットワークシステム,一般セッション)
- 報酬共有による強化学習を用いた協調学習に関する研究
- 性転換戦略を用いた生態系モデルの構築
- BS-5-6 マルチバンド無線アクセス網のための負荷バランスハンドオーバに関する一検討(BS-5.無線・有線シームレス統合時代の品質制御・ネットワーク制御に関する萌芽的技術,シンポジウムセッション)
- MANETにおける距離情報に基づくRAD制御を用いたブロードキャスト方式の提案と評価
- 遺伝アルゴリズムによる不確実な最適化問題の解法
- 不確実性を有する最適化問題に対する遺伝アルゴリズムの一構成法
- 進化的アルゴリズムの方法論(〈特集〉進化的アルゴリズムとファジィ理論)
- システム最適化
- 複数基準による電気回路の設計への遺伝的プログラミングの適用
- リアクティブ・スケジューリング(アイ・サイ問答教室)(「人間における知能の力学的理解特集号」)
- スキーマ解析による創発的設計手法のための知識獲得
- Q-learning を用いた遺伝的アルゴリズムの収束性の改善
- スケジューリング技術の新たな展開(「スケジューリング技術の新たな展開特集号」)
- 遺伝的アルゴリズムを用いた電気回路の自動設計
- ICTを活用した教育・学習支援のトレンドを企画して(ICTを活用した教育・学習支援のトレンド)
- 二次元交通流モデルにおけるコミュニケーションの発達
- 線形受動フィルタ回路の進化的設計
- 局所学習ニューラルネットワークにおける大域的学習則の創発
- Q学習のための状態の適応的分節化手法
- 動的環境下での強化学習 : 状態空間および行動空間の部分統合による適応の試み
- 客獲得数向上のためのタクシー車両配車問題のモデル化と目標エリア決定ルールの構成
- 連続行動空間への適用を考慮した Switching 強化学習
- 客獲得数向上のためのタクシー車両配車問題のモデル化と目標エリア決定ルールの構成
- スケジューリングにおけるヒューマンモデル
- リアクティブ・スケジューリング
- 「メタヒューリスティクスの理論と応用」 - 特集号によせて -
- 基礎シリーズ 進化的アルゴリズム(2)
- 基礎シリーズ 進化的アルゴリズム(1)
- 「電気関係学会関西支部連合大会」特集号によせて
- IEEE802.11無線アクセスポイントにおけるセッションベーススループット推定に関する一検討(無線LAN)
- VANETsにおけるフラッディングプロトコルの建物によるシャドウイングを考慮した通信特性評価(センサNW)
- インネットワーク誘導のためのコンテンツ/ロケーションマッピングに関する一検討(コンテンツ配信)