自己組織化マップを用いた教示による強化学習の高速化手法の提案(機械力学,計測,自動制御)
スポンサーリンク
概要
- 論文の詳細を見る
A new pre-teaching method for reinforcement learning using Self-Organizing Map (SOM) is described. The purpose of our study is to increase the learning rate using small number of teaching data generated by a human expert. In our method, the SOM is used to generate initial teaching data for the reinforcement learning agent from a few teaching data. The reinforcement learning function of the agent is initialized by using the teaching data generated by the SOM so as to increase the probability of selecting the optimal actions estimated by the SOM. Because the agent can get high rewards from the start of reinforcement learning, it is expected to increase the learning rate. The results of two computer simulations, mobile robot navigation and pursuit game, showed that the learning rate increased although the human expert had showed only a few teaching data.
- 社団法人日本機械学会の論文
- 2004-06-25
著者
-
川田 誠一
産業技術大学院大学創造技術専攻
-
川田 誠一
東京都立大学大学院工学研究科機械工学専攻
-
小口 俊樹
首都大学東京大学院理工学研究科
-
舘山 武史
首都大学東京
-
舘山 武史
東京都立大学大学院工学研究科機械工学専攻
-
小口 俊樹
東京都立大学大学院工学研究科
-
川田 誠一
東京都立大学大学院工学研究科
-
小口 俊樹
首都大学東京大学院理工学研究科機械工字専攻
関連論文
- 鉄/白金系電極対を用いた養豚廃液の脱窒・脱リン処理
- 鉄/白金族電極系を用いた電解による窒素・リン除去
- 鉄電極対を用いた電解による窒素・リン除去
- 212 場面遷移ネットを用いたサービス評価シミュレータ(設計マネジメント〔I〕)
- 場面遷移ネットGUI シミュレータによる マルチエージェントサービスフローシミュレーション
- 場面遷移ネットを用いたサービス工学に関する研究
- S1401-1-5 作業者の技能と教育を考慮した動的作業計画 : 作業配分ルールの最適化(生産システムの新展開(基礎・理論))
- 2203 作業者の技能と教育を考慮した動的作業計画 : 機械学習を用いた作業配分ルールの決定(OS2-2 スケジューリングII)
- k-確実探査法とFuzzy-ARTを用いた連続状態環境のセミマルコフ決定過程モデル構築手法の提案(機械力学,計測,自動制御)
- 価値関数モデルを用いたサービスの設計・評価のための顧客意思決定シミュレーション手法(第18回設計工学・システム部門講演会)
- 場面遷移ネットを用いたサービスの離散・連続ハイブリッドモデリングとマルチエージェントシミュレーション
- 探索エージェントを導入した学習経験を共有するマルチエージェント強化学習システムの提案(機械力学,計測,自動制御)
- 強化学習を用いた組織論に基づく適応的マルチエージェントシステム
- 20608 不確実性を低減するエージェントを導入したマルチエージェント強化学習(知的処理と診断)
- 20607 強化学習における知覚情報の自動選択(知的処理と診断)
- 10204 動的環境における移動ロボットのSensor-Based Controlに関する研究(OS15 知能ロボット)
- 20720 k-確実探査法とFuzzy-ARTによるタスクに応じた自律的状態分割アルゴリズム((III),OS12 インテリジェントシステムと制御)
- 自己組織化マップを用いた教示による強化学習の高速化手法の提案(機械力学,計測,自動制御)
- 成長セルとk-確実探査法を用いた連続状態未知環境の最適経路探索(ハイブリッドダイナミクスからの新展開)
- ART-1ネットワークを用いた工場の設備グルーピングアルゴリズムの提案
- 2-301 自己組織化マップによる自律移動ロボットの behavior の生成
- κ-確実探査法と動的計画法を用いたMDPs環境の効率的探索法
- k-確実探査法と動的計画法を用いたMDPs環境の効率的探索法
- 駆動系に弾性を有するロボットアームのロバストな高速高精度位置決め制御 : 階層的設計方式の適用 (ロボットの知能化)
- 分数次微分システムの最適レギュレータ設計
- 低次元化によるモデル誤差の評価について
- アクタ変換とマルチアスペクト化による場面遷移ネット (STN) の拡張
- 場面遷移ネット(STN)の形式化と可脱出性
- 入力むだ時間を含む離散時間非線形系の状態予測線形化制御
- 入力にむだ時間をもつ多入力多出力非線形系の入出力線形化 : スミス型予測器によるむだ時間補償
- 場面の概念を用いた離散・連続混合システムのシミュレーションモデル : 場面遷移ネット(STN)の提案( 統合化生産システム)
- 仮設推論を援用した制御系の自動設計
- マルチアスペクトモデルによる自律分散シミュレーション
- セル間作業負荷バランスを考慮したセルフォーメーション(S60-1 生産システムの新展開(1),S60 生産システムの新展開)
- 分布系熱交換器の操作量の分布形状と零点の配置に関する考察
- ある一階偏微分方程式系の操作量の分布形状と零点の配置に関する考察
- 重みつき残差法を用いたある一階偏微分方程式系の近似極配置
- 3120 連続環境における移動ロボットの強化学習
- 同期状態にあるカオス系の制御(非線形システムの制御の新展開)
- 20717 量子化と伝送遅延時間を考慮したネットワーク制御系の安定化(OS12 インテリジェントシステムと制御)
- 状態予測を用いた非線形システムのネットワーク制御
- 遺伝的アルゴリズムを用いた加工機械と複積載AGVの同時スケジューリング(機械要素,潤滑,工作,生産管理など)
- 遺伝的アルゴリズムを用いた加工機械と複積載AGVの同時スケジューリング
- 複積載AGVによる搬送を考慮したジョブショップ・スケジューリング(コンカレントシステム, 離散事象システム, ハイブリッドシステム, 及び一般)
- 分散環境における場面遷移ネットシミュレーション(機械要素,潤滑,工作,生産管理など)
- 多入力状態むだ時間非線形システムのスライディングモード制御
- 状態予測を用いた非線形システムのネットワーク制御(機械力学,計測,自動制御)
- 可変構造制御による状態むだ時間非線形システムの安定化
- 分数階微分アクティブマスダンパによる柔軟構造物の振動制御
- 分数次微分方程式の時間応答の数値計算法
- 場面遷移ネットを用いたハイブリッドシステムの階層型マルチアスペクトモデリング
- 13.7 インテリジェントコントロール(13.機械力学・計測制御)
- 仮想目標値の概念を適用したVSC-あるバッチ反応プロセスの温度追従制御-
- バッチ式フェノール重合反応器のモデリングと制御
- 不確かさを含む線形動的システムのロバスト制御則 : チャタリングを低減させる仮想目標点の提案
- FA部門からのお知らせ
- 外部に熱交換器をもつバッチ反応器のモデリングと可変構造制御
- スライディングモード制御による入力むだ時間システムの安定化(機械要素,潤滑,工作,生産管理など)
- 20716 不確かな入力むだ時間を有するシステムのスライディングモード制御(OS12 インテリジェントシステムと制御)
- 遅延結合非線形ネットワークの安定性と同期(ネットワークダイナミクスとその応用)
- 動的拘束条件に基づくAcrobotの振上げ制御(機械力学,計測,自動制御)
- むだ時間を含む非線形拡散結合システムの同期現象
- 非線形システムの同期に基づく状態予測
- むだ時間を含む非線形システムの制御(非線形ダイナミクスと制御特集号)
- 非線形むだ時間系の制御
- 状態むだ時間非線形システムの有限極配置
- 能動関節まわりの摩擦を考慮したPendubotの振り上げ制御(機械力学,計測,自動制御)
- 2302 Web情報を用いた設計知識情報データベースの拡充手法
- 2301 サービス設計のための目標計画法に基づく設計値決定支援システム
- 1308 価値関数モデルを用いたサービスの設計・評価のための顧客意思決定シミュレーション手法
- 3312 能動関節周りの摩擦を考慮した2リンク劣駆動系の振り上げ制御(非線形制御理論とその応用(1))
- 遅延結合カオスネットワークの完全同期と部分同期
- 2503 サービス改善のための企業リソースを考慮したコンテンツパラメータ設計(OS12-2 ライフサイクル設計とサービス工学II:サービスのモデル化技法,OS12 ライフサイクル設計とサービス工学)
- 1404 場面遷移ネットを用いたサービスのマルチエージェントシミュレーション(OS12-1 ライフサイクル設計とサービス工学I:サービス設計と価値表現,OS12 ライフサイクル設計とサービス工学)
- 2411 サービスブループリントに基づくサービスシミュレーション手法(OS12-3 ライフサイクル設計とサービス工学III,OS12 ライフサイクル設計とサービス工学)
- 機械学習法を用いた作業者の技能と教育を考慮したスケジューリング支援システム (システム研究会 確率的最適化技術と機械学習技術の共進化)
- 遅延結合されたLur'e系における部分同期とネットワーク構造
- 同期条件に基づく拡散遅延結合ネットワークの構造設計
- A Multi-Aspect Modeling Method for Service Flow Simulation Using Scene Transition Nets (STNs)
- 1302 サービス設計のための不確実性分析手法(OS9-2 ライフサイクル設計とサービス工学II)
- 1303 不確実要素を考慮したサービスコストシミュレーション手法(OS9-2 ライフサイクル設計とサービス工学II)
- 1301 場面遷移ネットに基づくサービスのマルチアスペクトモデリング手法(OS9-2 ライフサイクル設計とサービス工学II)