RF-005 確率環境下での優先度スイープ(人工知能・ゲーム,査読付き論文)
スポンサーリンク
概要
- 論文の詳細を見る
Model based learning can reevaluate the utility of every state, according to a measure of urgency. Prioritized sweeping is a typical algorithm for efficient state updating. In a stochastic environment, a probability distribution can be used to represent the uncertainty of the Q-value caused by probabilistic state transitions or probabilistic rewards. If the expected value of a reward is assumed to be normally distributed, the distribution of the value function at the initial learning stage is approximated by a t-distribution because of equivalence to random sampling from a normal distribution. Confidence intervals calculated from this distribution for each state-action pair represent insufficiently explored states. In this paper, the product of the confidence interval and the Bellman error is used to provide a measure for prioritizing, which takes account of the level of confidence and also yields a measure of urgency. The performance of this approach in the trap domain is examined and compared with that of the ordinary sweeping method. Experimental results indicate that the proposed approach results in a more effective exploration of the state than does the use of conventional sweeping methods.
- FIT(電子情報通信学会・情報処理学会)推進委員会の論文
- 2008-08-20
著者
関連論文
- 生態系における捕獲戦略の進化
- 共進化を利用したニューラルネットワークの一設計法
- 重複変異と適応度調節を用いた遺伝的アルゴリズム
- 1-106 報酬分配エージェントによる強化学習
- 生体信号を用いた音声分析に関する研究
- 重複突然変異によるニューラルネットの構造設計に関する検討
- 遺伝アルゴリズムを用いたロボット制御回路の構造設計
- 日本語母音声のカオス性解析とその特徴について(3部 モデル解析)
- 価値モジュラ律によるパラダイム創造のための価値生産について
- 価値論理式およびその情報制御連立式による宇宙の第一原理・統一理論に関する一考察
- 生産・分配における制御システム理論の価値創造的方法論について
- D-8-3 共進化を利用した機能設計
- ISO14000におけるトータルマネジメントエンジニアリングについて
- ISO14000におけるト-タルマネジメントエンジニアリングについて
- 情報科学による価値探究規則の方法論について
- 価値論理による市場研究の価値情報創造について
- 格子ゲームによる強化学習アルゴリズムの比較
- A-13-1 マルチエージェント環境下における強化学習パラメータの適応的調節
- マルチエージェント強化学習における最適報酬配分
- 共進化遺伝的アルゴリズムの強化学習への応用に関する考察
- 遺伝的アルゴリズムによるロボット軌道計画
- 果実の非破壊糖酸度測定の基礎検討
- 果実や根の非破壊重量計測
- ニューラルネットワークによる脳磁場信号源の推定
- RF-005 確率環境下での優先度スイープ(人工知能・ゲーム,査読付き論文)
- ナッシュQ学習における協調行動の生成
- 1C3-2 分配価値関数をもちいた最適報酬分配学習(1C3 最適化2)
- Actor-Critic アルゴリズムの倒立振子制御問題への応用
- LF-007 交渉過程を導入したマルチエージェントシステムにおける報酬分配学習(F分野:人工知能・ゲーム)
- 周波数成形された出力フィードバックによるスライディングモ-ド制御系とプロセス系の追値制御への応用
- スキーマを抽出する部分適合度関数を利用した共進化遺伝的アルゴリズム
- 部分適合度関数をもちいた共進化遺伝的アルゴリズム
- D-8-20 部分適合度関数を利用した共進化遺伝的アルゴリズム
- マルコフ連鎖解析による淘汰方式の評価
- 確率環境下でのモデルベース学習
- 重複変異を用いた遺伝的アルゴリズムとその評価
- 重複変異を用いた遺伝的アルゴリズムとそのニュ-ラルネットワ-ク設計への応用
- GA-ファジィエキスパートの飛行体制御への応用
- 複素Hopfield回路とその応用
- ニュ-ラルネットワ-クによる脳磁場信号源の推定
- 1-325 グループワークで行なう「フレッシュマンプログラム」((03)コミュニケーションスキル教育-III,口頭発表論文)
- 最近傍を規範とする条件での角度モデルでの包囲
- 視覚障害をもつ児童生徒のための携帯電話I/Fを想定した移動ロボットプログラミング教材(障碍者支援システム,音声/福祉/ディジタル信号処理/聴覚一般)
- 視覚障害をもつ児童生徒のための携帯電話I/Fを想定した移動ロボットプログラミング教材(障碍者支援システム,音声/福祉/ディジタル信号処理/聴覚一般)