不完全知覚判定法を導入した Profit Sharing
スポンサーリンク
概要
- 論文の詳細を見る
To apply reinforcement learning to difficult classes such as real-environment learning, we need to use a method robust to perceptual aliasing problem. The exploitation-oriented methods such as Profit Sharing can deal with the perceptual aliasing problem to a certain extent. However, when the agent needs to select different actions at the same sensory input, the learning efficiency worsens. To overcome the problem, several state partition methods using history information of state-action pairs are proposed. These methods try to convert a POMDP environment into an MDP environment, and thus they are sometimes very useful. However, their computation cost is very high especially in large state spaces. In contrast, memory-less approaches try to escape from the aliased states by outputting actions stochastically. However, these methods output actions stochastically even in unaliased states, and thus the learning efficiency is bad. If we desire to guarantee the rationality in POMDPs, it is efficient to output actions stochastically only in the aliased states and to output one action deterministically in the other unaliased states. Hence, to discriminate between aliased states and unaliased states, the utilization of χ⊃2; -goodness-of-fit test is proposed by Miyazaki et al. They point out that, in aliased states, the distributions of the state transitions by random search and a particular policy are different. This difference doesnt occur owing to non-deterministic actions. Hence, if the agent can collect enough samples to implement the test, the agent can distinguish between aliased states and unaliased states well. However, such a test needs a large amount of data, and its a problem how the agent collects samples without worsening learning efficiency. If the agent uses random search in the course of learning, the learning efficiency worsens especially in unaliased states. Therefore, in this research, we propose a new method called Extended On-line Profit Sharing with Judgement (EOPSwJ) to detect important incomplete perception, which doesnt need large computation cost and numerous samples. We use two criterions for detecting important incomplete perceptions to attain a task. One is the rate of transitions to each state, and the other is the deterministic rate of actions. We confirm the availability of EOPSwJ using two simulations.
- 社団法人 人工知能学会の論文
- 2004-11-01
著者
-
増田 士朗
東京都立科学技術大学
-
増田 士朗
首都大学東京 大学院システムデザイン研究科
-
増田 士朗
東京都立科学技術大学 工学部
-
増田 士朗
東京都立科学技術大学生産情報システム工学科
-
斎藤 健
東京都立科学技術大学大学院工学研究科
-
斎藤 健
東京都立科学技術大学
関連論文
- 可調整パラメータを持つmas-plus線形システムに対するモデル予測制御
- 線形パラメータ表現されたmax-plus線形システムの最適逆システム
- フレッシュマンのための適応制御 : モデリングしながら制御する
- 熱延仕上ミル張力・ルーパ系のハイブリッドシステムモデルとモデル予測制御
- 熱延仕上ミル張力・ルーパ系のハイブリッドシステムモデルとモデル予測制御(鉄鋼業における最新の計測,制御,システム技術)
- 閉ループデータに基づく直接的PID調整とその不安定プロセスへの適用
- 予見・予測制御
- モデル予測制御-III : 一般化予測制御(GPC)とその周辺
- MIMO-FIFO型構造を有する繰返し処理システムのバックワード型オンラインMPLスケジューリング(システムと制御)
- min-Plus線形システムに基づくモデル予測制御
- max-plus線形システムによる離散事象システムモデリングとモデル予測制御
- max-plus線形システムに対するモデル予測制御のフィードバック特性について
- max-plus 線形システムに対するモデル予測制御のフィードバック特性について
- 電気油圧サーボ系に対する適応バックステッピング法の一構成法
- サンプル点間を考慮した一般化予測制御によるハードディスクヘッドの位置決め制御
- 入力振動を考慮した2自由度マルチレート制御系の設計
- 状態空間法による終端条件を用いた多変数一般化予測制御系の構成法
- ヘリコプター姿勢制御モデルに対する適応バックスチッピング法の適用
- バックステッピング法によるヘリコプターモデルの姿勢制御
- 電気油圧シリンダに対する適応制御用ベンチマーク問題の作成 - SICE 制御部門適応学習制御調査研究会活動報告 -
- 状態分割法による部分観測マルコフ決定過程に対する経験強化学習法
- 在庫理論の応用展開による組立ラインバランシング : 連続ラインとセル生産システムの比較
- 多項式代数法によるセルフチューニング一般化予測制御系の2自由度構成法
- テクニカル分析手法の応用による予測型在庫モデルの研究
- 状態空間法に基づくm入力m出力一般化予測制御系の2自由度構成法
- 不完全知覚判定法を導入した Profit Sharing
- 多様な需要モデルに適応する最適発注点・発注量同時決定
- 広域的な需要モデルに適応するB1在庫モデルの改良
- SICEセミナー「ゲインスケジュールド制御の基礎と応用」
- 二項・切断正規分布に準拠する回帰変換・発注量比率補正型在庫モデルの提案
- 未来を予測して制御するモデル予測制御(予測と推定)
- ハイゲインフィードバックと適応制御
- 動的なハイゲインフィードバック補償器を用いた DyCE MRACS の零状態応答における性能解析
- 状態空間法による一般化予測制御系の設計法
- 2自由度構成された固定補償要素を含む多変数モデル規範型適応制御系
- 状態空間法による一般化予測制御系の2自由度構成法
- 多項式代数法と等価な状態空間法による一般化予測制御系の構成とその等価性の証明
- Max代数による離散事象システムの内部モデル制御に関する研究
- 固定補償要素を用いたハイブリッド適応制御系の-構成法
- Lookahead戦略によるスーパバイザ制御
- 内部モデル同定機構を含む適応サーボ系の構成
- メモリベース学習システムを用いた Q-Learning の制御問題への応用
- 第17回「適応制御シンポジウム」
- 既約分解表現による適応制御
- 33rd IEEE Conference on Decision and Controlに出席して
- 既約分解表現を用いた固定補償要素を含むモデル規範型適応制御系の一構成法
- 2自由度制御系設計手法によるモデル規範型適応制御系の一般的構成法
- ハイブリッド適応制御系の外乱ロバスト安定性
- モデル規範型適応制御系の外乱ロバスト安定性における状態変数フィルタの影響
- 一般化インタラクタのパラメータ表示と離散時間全域通過特性
- 周期性未知外乱推定適応オブザ-バの構成
- 連続変形法とステップ入力制約を用いた非線形モデル予測制御則の導出 (制御研究会 制御技術の新展開)
- モデル不要PID調整法E-FRITの開発と実用化
- 2自由度一般化予測制御法のアルミ板温度制御実験への応用
- 周期性未知外乱推定適応オブザ-バの構成