Q-learningの行動制御における学習効率に関する考察
スポンサーリンク
概要
- 論文の詳細を見る
従来の強化学習の研究の多くは、状態から行動への写像を離散的な空間で考え、table look-up方式により取り扱っている。このような手法は理論的展開を容易にし、また小規模な例題ではうまく働く。しかし入力空間の次元や量子化精度が高くなると、離散化による状態数の爆発的増加が生じる。また単純なtable look-up方式では未学習のデ-タに対して妥当な出力を生成する能力、いわゆる汎化能力がないことから未学習の状態に対して効果的な行動の生成が行なえないという問題点を持つ。そこで本研究では連続的な入力空間の取り扱いを可能にする学習機械としてニュ-ラルネットワ-クを考え、強化学習の代表的なアルゴリズムであるQ-learningの適用とその学習効率改善について考察する。
- 社団法人電子情報通信学会の論文
- 1994-03-25
著者
関連論文
- オープン型人工市場U-Mart : 構想, 成果, 展望
- いろいろな部会の活動状況を紹介しましょう
- 人間の視覚系における明るさチャンネルの並列性について
- ニューラルネットワークを利用した適応型エレベータ群管理システム
- 位相モデルによる信号機広域制御ダイナミクスの提案
- 自律分散型超高層ビル内搬送システムのためのエージェント間協調手法の検討
- Third IEEE International Conference on Fuzzy Systems と IEEE International Conference on Neural Networks に参加して
- 第11回自律分散システム講演・討論会
- 聴神経の時系列発火に基づく音調性認識のニューラルネットモデル
- Hopfield型ニューラルネットワークとシミュレーテッドアニーリング (「計画問題と人工知能」〔第l回〕)
- ニューラルネットワークの汎化能力
- 第3回自律分散システムシンポジウム
- Hopfieldニューラルネットワークの性質に関する二、三の基礎的考察
- 実数値 GA のための正規分布交叉の多数の親を用いた拡張法の提案
- 座談会 : 「人工市場を研究する社会的および学問的意義」(「人工市場」)
- 都市におけるエネルギー需給平準化可能性の検討-II
- 探索履歴を利用した遺伝的アルゴリズムによる不確実関数の最適化
- 不確実環境下での遺伝的アルゴリズム - 応用の視点から -
- Q-learningの行動制御における学習効率に関する考察
- 人間の視聴覚情報の並列処理における反応時間特性
- 受容野の自己組織的形成
- 視覚系における増分閾値の空間特性の色順応効果
- 市場指向プログラミングにおけるエージェントの適応と学習
- 交叉の設計指針に基づくUNDXの拡張: ENDXの提案と評価
- 遺伝アルゴリズムによる巡回セールスマン問題の一解法
- ワンシャフトマルチカーエレベータの運行制御の研究
- 特集「人工市場」にあたって
- 多目的遺伝的アルゴリズムを用いた人工市場研究のための取引エージェントの構成(「エコノフィジックス」)
- オープン型人工市場U-Mart : 構想, 成果, 展望
- GAのスケジューリング問題への応用
- 市場指向モデルにおける取引制度の検討
- 市場指向モデルにおける取引制度の検討
- 記憶機構を導入した熱力学的遺伝アルゴリズムによる動的環境への適応
- 通信資源配分のための市場指向モデルの検討
- 熱力学的遺伝アルゴリズムを用いた動的環境下での最適化計算
- 自律と人工
- 関西支部の活動
- OE1-2 U-Martプロジェクトの紹介(コンピュータの中の社会と経済,学術系企画)
- Optimization by Means of a Neural Network Model : An Application to the Placement Problem
- 創発システム