k-確実探査法と動的計画法を用いたMDPs環境の効率的探索法
スポンサーリンク
概要
- 論文の詳細を見る
強化学習法の代表的手法であるQ-learningなどを用いた既存の強化学習システムの問題点は, 最適政策を求めるまでに膨大な試行回数が必要となることである.その解決策の一つとして, 宮崎らはk-確実探査法を提案し, MDPs環境においてQ-learningよりも大幅に少ない試行回数で最適政策が求められることを示した.この手法は効率的な学習法であるが, アルゴリズムに占めるランダムな選択の割合が比較的多く, この点に改良の余地がある.本論文では, この問題点に着目し, 新たにk-確実探査法と動的計画法を組み合わせることで, さらに高速な強化学習システムのアルゴリズムを提案し, シミュレーションにより, 提案するアルゴリズムの有効性を示す.まず, 宮崎らの提案したk-確実探査法について検討し, 現状態においてk-未確実なルール(実行回数がk回未満のルール)が存在しない場合, エージェントはk-未確実なルールが選択できる状態に推移するまでランダム行動を繰り返す場合があり, 結果的に試行回数の増加を招くことなどの問題点を明確にした.次に, このような欠点を補うため, 確実探査法と動的計画法(Dynamic Programming: DP)を組み合せたMDPs環境の探索アルゴリズムを新たに提案した.すなわち, 宮崎らの学習システムでは, k-確実探査法によって環境内のすべてのルールを最低k回実行した後にDPを用いて最適政策を求めるが, 本手法では, 環境内を探索している段階においてもDPを用い, ランダムな選択をできるだけ避けることで学習効率の改善を図った.本手法のアルゴリズムの概要を次に述べる.エージェントは状態によって, 2種類の行動パターンをとるが, 現状態においてk-未確実なルールが選択できる場合には, 従来のk-確実探査法と同様に, そのようなルールの中から一つをランダムに選択する.そのようなルールが選択できない場合には, DPによって求められた, k-未確実なルールが選択できる状態へ推移するための最適政策を利用した行動選択を行う.このような学習システムにより, 従来のk-確実探査法による学習よりも効率的な学習の実現が期待できる.本論文で提案するアルゴリズムの有効性を検証するため, 迷路走行タスクのシミュレーションを行った.k-確実探査法を用いた結果と比較することにより, 本手法の有効性が示された.
- 人工知能学会の論文
- 2001-01-01
著者
-
川田 誠一
産業技術大学院大学創造技術専攻
-
川田 誠一
東京都立大学大学院工学研究科機械工学専攻
-
舘山 武史
首都大学東京
-
舘山 武史
東京都立大学大学院工学研究科機械工学専攻
-
館山 武史
東京都立大学大学院工学研究科
-
川田 誠一
東京都立大学大学院工学研究科
関連論文
- 鉄/白金系電極対を用いた養豚廃液の脱窒・脱リン処理
- 鉄/白金族電極系を用いた電解による窒素・リン除去
- 鉄電極対を用いた電解による窒素・リン除去
- 212 場面遷移ネットを用いたサービス評価シミュレータ(設計マネジメント〔I〕)
- 場面遷移ネットGUI シミュレータによる マルチエージェントサービスフローシミュレーション
- 場面遷移ネットを用いたサービス工学に関する研究
- S1401-1-5 作業者の技能と教育を考慮した動的作業計画 : 作業配分ルールの最適化(生産システムの新展開(基礎・理論))
- 2203 作業者の技能と教育を考慮した動的作業計画 : 機械学習を用いた作業配分ルールの決定(OS2-2 スケジューリングII)
- k-確実探査法とFuzzy-ARTを用いた連続状態環境のセミマルコフ決定過程モデル構築手法の提案(機械力学,計測,自動制御)
- 価値関数モデルを用いたサービスの設計・評価のための顧客意思決定シミュレーション手法(第18回設計工学・システム部門講演会)
- 場面遷移ネットを用いたサービスの離散・連続ハイブリッドモデリングとマルチエージェントシミュレーション
- 探索エージェントを導入した学習経験を共有するマルチエージェント強化学習システムの提案(機械力学,計測,自動制御)
- 強化学習を用いた組織論に基づく適応的マルチエージェントシステム
- 20608 不確実性を低減するエージェントを導入したマルチエージェント強化学習(知的処理と診断)
- 20607 強化学習における知覚情報の自動選択(知的処理と診断)
- 10204 動的環境における移動ロボットのSensor-Based Controlに関する研究(OS15 知能ロボット)
- 20720 k-確実探査法とFuzzy-ARTによるタスクに応じた自律的状態分割アルゴリズム((III),OS12 インテリジェントシステムと制御)
- 自己組織化マップを用いた教示による強化学習の高速化手法の提案(機械力学,計測,自動制御)
- 成長セルとk-確実探査法を用いた連続状態未知環境の最適経路探索(ハイブリッドダイナミクスからの新展開)
- ART-1ネットワークを用いた工場の設備グルーピングアルゴリズムの提案
- 2-301 自己組織化マップによる自律移動ロボットの behavior の生成
- κ-確実探査法と動的計画法を用いたMDPs環境の効率的探索法
- k-確実探査法と動的計画法を用いたMDPs環境の効率的探索法
- 駆動系に弾性を有するロボットアームのロバストな高速高精度位置決め制御 : 階層的設計方式の適用 (ロボットの知能化)
- 分数次微分システムの最適レギュレータ設計
- 低次元化によるモデル誤差の評価について
- アクタ変換とマルチアスペクト化による場面遷移ネット (STN) の拡張
- 場面遷移ネット(STN)の形式化と可脱出性
- 入力むだ時間を含む離散時間非線形系の状態予測線形化制御
- 入力にむだ時間をもつ多入力多出力非線形系の入出力線形化 : スミス型予測器によるむだ時間補償
- 場面の概念を用いた離散・連続混合システムのシミュレーションモデル : 場面遷移ネット(STN)の提案( 統合化生産システム)
- 仮設推論を援用した制御系の自動設計
- マルチアスペクトモデルによる自律分散シミュレーション
- セル間作業負荷バランスを考慮したセルフォーメーション(S60-1 生産システムの新展開(1),S60 生産システムの新展開)
- 分布系熱交換器の操作量の分布形状と零点の配置に関する考察
- ある一階偏微分方程式系の操作量の分布形状と零点の配置に関する考察
- 重みつき残差法を用いたある一階偏微分方程式系の近似極配置
- 3120 連続環境における移動ロボットの強化学習
- 状態予測を用いた非線形システムのネットワーク制御
- 遺伝的アルゴリズムを用いた加工機械と複積載AGVの同時スケジューリング(機械要素,潤滑,工作,生産管理など)
- 遺伝的アルゴリズムを用いた加工機械と複積載AGVの同時スケジューリング
- 複積載AGVによる搬送を考慮したジョブショップ・スケジューリング(コンカレントシステム, 離散事象システム, ハイブリッドシステム, 及び一般)
- 分散環境における場面遷移ネットシミュレーション(機械要素,潤滑,工作,生産管理など)
- 多入力状態むだ時間非線形システムのスライディングモード制御
- 状態予測を用いた非線形システムのネットワーク制御(機械力学,計測,自動制御)
- 可変構造制御による状態むだ時間非線形システムの安定化
- 分数階微分アクティブマスダンパによる柔軟構造物の振動制御
- 分数次微分方程式の時間応答の数値計算法
- 場面遷移ネットを用いたハイブリッドシステムの階層型マルチアスペクトモデリング
- 13.7 インテリジェントコントロール(13.機械力学・計測制御)
- 仮想目標値の概念を適用したVSC-あるバッチ反応プロセスの温度追従制御-
- バッチ式フェノール重合反応器のモデリングと制御
- 不確かさを含む線形動的システムのロバスト制御則 : チャタリングを低減させる仮想目標点の提案
- FA部門からのお知らせ
- 外部に熱交換器をもつバッチ反応器のモデリングと可変構造制御
- 2302 Web情報を用いた設計知識情報データベースの拡充手法
- 2301 サービス設計のための目標計画法に基づく設計値決定支援システム
- 1308 価値関数モデルを用いたサービスの設計・評価のための顧客意思決定シミュレーション手法
- 2503 サービス改善のための企業リソースを考慮したコンテンツパラメータ設計(OS12-2 ライフサイクル設計とサービス工学II:サービスのモデル化技法,OS12 ライフサイクル設計とサービス工学)
- 1404 場面遷移ネットを用いたサービスのマルチエージェントシミュレーション(OS12-1 ライフサイクル設計とサービス工学I:サービス設計と価値表現,OS12 ライフサイクル設計とサービス工学)
- 2411 サービスブループリントに基づくサービスシミュレーション手法(OS12-3 ライフサイクル設計とサービス工学III,OS12 ライフサイクル設計とサービス工学)
- 機械学習法を用いた作業者の技能と教育を考慮したスケジューリング支援システム (システム研究会 確率的最適化技術と機械学習技術の共進化)
- A Multi-Aspect Modeling Method for Service Flow Simulation Using Scene Transition Nets (STNs)
- 1302 サービス設計のための不確実性分析手法(OS9-2 ライフサイクル設計とサービス工学II)
- 1303 不確実要素を考慮したサービスコストシミュレーション手法(OS9-2 ライフサイクル設計とサービス工学II)
- 1301 場面遷移ネットに基づくサービスのマルチアスペクトモデリング手法(OS9-2 ライフサイクル設計とサービス工学II)