連続値入力強化学習におけるGauss-Sigmoidニューラルネットワークの有効性
スポンサーリンク
概要
- 論文の詳細を見る
主として行動のプランニングに用いられてきた強化学習は、ニューラルネットワークと組み合わせることにより、センサからモータまでの一連の処理を総合的に学習することが可能となる。しかし、この組み合わせはBoyanらにより、学習を不安定に導くと指摘された[1]。これに対し、R8Fネットワークなどの局所的な情報表現の使用が有効であることが示されているが、これらの方法は、大域的な情報を表現する手段を持っておらず、その分、汎化能力が劣る。本稿では、RBFネットワークの出力をシグモイドユニットの入力として用いるGauss-Sigmoidニューラルネットワーク(NN)を強化学習に用い、Boyanらが用いたhill-car問題に適用した。その結果、シグモイド型 NNと比較して非線形関数近似能力が優れ、シグモイドユニットを用いても安定した学習が行えること、RBFネットワークと比較して、Gauss-Sigmoid NNが学習を通して大域的な情報表現を獲得し、その上で汎化が有効に働く可能性を示した。
- 社団法人電子情報通信学会の論文
- 2001-03-16
著者
関連論文
- 巻頭言
- 強化学習とリカレントネットを用いた並列で柔軟な学習制御システムの枠組み (ニューロコンピューティング)
- 階層型ニューラルネットにおける中間層での適応的空間再構成と中間層レベルの汎化に基づく知識の継承
- 7-215 大分大学工学部におけるGPA制度の現状と課題((12)教育評価・自己点検・評価システム-IV)
- 隠れニューロンの分離を伴う成長型ニューラルネットワーク
- コミュニケーションの強化学習におけるノイズ付加による連続値信号の離散化
- 強化学習による個性・社会性の発現・分化モデル
- Direct-Vision-Based強化学習による視覚付き実移動ロボットの行動獲得
- 移動物体の捕獲行動学習におけるセンサ動作の比較
- 局所信号を入力としたニューラルネットにおける中間層での適応的空間再構成と汎化
- Actor-Qアーキテクチャに基づく能動認識学習システム
- 力学モデルによる大腿義足の関節粘弾性調整法
- 強化学習によるリーチング動作の獲得
- 連続値入力強化学習におけるGauss-Sigmoidニューラルネットワークの有効性
- ニューラルネットワークを用いたDirect-Vision-Based強化学習-センサからモータまで-
- 1337 力学モデルによるエネルギー蓄積型大腿義足のパラメータ調節
- 1335 トルク推定に基づく筋電義手の動作制御
- エネルギー蓄積型大腿義足の力学的解析と制御
- ニューラルネットワークを用いた人間-筋電義手インタフェース
- 認識の学習に基づく注意と連想記憶の形成
- 環境変動下における四足歩行パターンの生成と遷移
- 人間の動作特性を考慮したバイラテラル・マイクロテレオペレーション
- 強化学習とニューラルネットによる知能創発
- 巻頭言
- Direct-Vision-Based 強化学習に基づく Hand-Eye Coordination の形成
- 利害の衝突回避のための交渉コミュニケーションの学習-リカレントニューラルネットワークを用いたダイナミックコミュニケーションの学習-
- 利害の衝突回避のための交渉コミュニケーションの学習と個性の発現
- マルチエージェント系における個性・社会性の学習的生成
- モデル型TD強化学習による動的環境での行動獲得
- 短期記憶のためのリカレントネット簡易学習則の基本構想
- 時間軸スムージング学習
- 遅延強化信号による視点移動の学習
- 強化学習による能動認識能力の学習
- 時間軸スムージング学習による局所センサ信号の統合と空間情報の抽出
- 相関情報抽出ネットと空間認識能力の教師なし学習
- 2-112 GA の解探索過程における多様性の維持に関する研究
- 遺伝的アルゴリズムによるニューラルネットワーク構造の最適化
- 遺伝的アルゴリズムにおける遺伝子型の多様性維持に関する検討
- 第2回人工生命とロボットに関する国際シンポジウム
- 拍動ポンプのPI制御
- 埋め込み法を用いた半縮退共分散を持つガウス信号の検波
- 最適レギュレ-タの初期値解
- 直流分を用いた動脈の血管抵抗・コンダクタンスの同定
- 移動認識ビ-クルの開発
- ニュ-ラルネットワ-クを用いた文字の学習方法
- 3次バタ-ワ-ス過程のチャンドラセカ-ルスム-ザ
- ファジィ制御におけるメンバ-シップ関数について
- 2次遅れシステムの1段先予測制御
- 状態空間モデルを用いた連続チャンドラセカ-ル形フィルタの設計
- 状態空間モデルを用いた適応ディジタルチャンドラセカ-ルフィルタ
- 共分散情報による線形Predictorの設計
- リカレントネットを用いた強化学習による探索行動と多値記憶の創発
- 未知入力オブザ-バを用いたフィ-ドバック制御系のロバスト設計 (オブザ-バ・状態推定と産業応用)
- ニューラルネットを用いた強化学習による行動の学習を通した色恒常性の創発