遺伝的アルゴリズムを用いた時変環境におけるQ-learning
スポンサーリンク
概要
- 論文の詳細を見る
本論文では, 強化学習のひとつであるQ-learningにおける有用度関数に, 遺伝的アルゴリズムによって構成されたRBFネットワークを用いることを提案する. 時変環境において従来のRBFネットワークの構成法では, 中間素子数が増加する, 過去の記憶の影響を受けやすい, 学習をやり直すタイミングを決定するのが難しいなどの間題点がある. そこで本手法では, 2倍体染色体を用いた遺伝的アルゴリズムおよび最急降下法を組み合わせることにより, 適切なネットワーク構成を動的に決定する. ロジスティック写像を一定値に制御する問題において, 従来手法に比べより少ない誤差を実現することができた.
- 社団法人電子情報通信学会の論文
- 1997-12-12
著者
-
吉澤 修治
東京大学大学院工学系研究科機械情報工学専攻
-
村川 正宏
東京大学大学院 工学系研究科 機械情報工学専攻
-
吉澤 修治
玉川大学学術研究所
-
吉沢 修治
東大工
-
米井 友浩
東京大学大学院 工学系研究科 機械情報工学専攻
-
米井 友浩
東京大学大学院工学系研究科:(現)日本電信電話株式会社
関連論文
- 聴覚認知に関与する海馬 - 皮質活動の解析
- 視覚認知における同一線分内の運動情報伝達
- 文字の心的回転の脳内過程
- 手の左右判別に伴う脳内活動
- Motor Imageryにおける脳内処理の時空間構造
- メンタルローテーションの情報処理モデル : 脳磁データからの推定
- 脳磁気計測による運動の想起と実行の比較
- 文字のメンタルローテーション課題遂行時の脳磁界
- 作業分担における情報交換ルールの強化学習による自動獲得
- 倒立振子の協調制御における言語の自発的形成
- 近傍モデル遺伝的アルゴリズムによる多目的最適化
- 線画呈示に伴う脳内活動部位の時間変化
- 適応デバイスの研究開発
- 進化するハードウェアを用いたパターン認識システム
- ニューロンクラスによるスパイク間隔統計の相違
- ニューロンクラスによるスパイク間隔統計の相違
- 13pTC-8 BVP モデルと LIF モデルの高次スパイク間隔統計量の相違(ニューラルネットワーク : 神経系のモデルを含む, 領域 11)
- 時空間構造をもつ入力に対するSTDPベースの自己組織化マップ
- LIFモデルとBVPモデルで見られる高次スパイク間隔統計の相違
- STDPによるシナプスパターンの競合と調節のメカニズム
- ニューロンモデルのクラス分類と入力の性質によるスパイク統計の相違
- 2P2-3F-B6 人とロボットの歩行同期のための視覚による踵追跡・歩行ピッチ抽出
- 2P1-3F-B8 パターン認識の前処理としての次元圧縮法
- 両眼競合知覚の神経機構
- 二次元動画像からの動作情報抽出
- A-2-23 カオス系列刺激によるBVPニューロンの応答とその統計的解析
- A-2-17 有色ノイズ入力を与えたBV ニューロンの応答
- BVPニューロンへの有色ノイズ刺激とその応答
- 進化型アナログLSI -遺伝的アルゴリズムによる製造誤差への適応-
- 1A1-77-110 逐次学習型線形判別分析アルゴリズムの性能比較
- 槌田 敦: 石油と原子力に未来はあるか; 資源物理の考えかた, 亜紀書房, 東京, 1978, iii+233ページ, 19×13cm, 980円.
- GAによるニューラルネットワークの構造学習用回路の実現
- 反応曲線が既知なロブ-パス問題の最適解
- 砂時計型ネットを用いた多価関数の学習
- 砂時計型ネットの中間次元数選択について : AIC・MDLの不適切性と新しい基準量
- 多重化砂時計型ネットを用いた広いクラスの曲面によるデータフィッティング
- 砂時計型ニューラルネットの競合学習
- RBFネットワークを用いた時変環境におけるQ-learning :遺伝的アルゴリズムによる有用度関数の構成法
- 筋肉のHodgkin-Huxley方程式における周期倍分岐の連鎖
- 筋肉のHodgkin-Huxley方程式の2パラメータ分岐
- 筋細胞膜のHodgkin-Huxleyモデルでの周期倍分岐の連鎖
- 筋肉のHodgkin-Huxley方程式の周期解の分岐
- 時変環境に対する2倍体染色体を用いた遺伝的アルゴリズム
- 自己連想ニューラルネットワークにおける誤想起の抑制 : 入力パターンへのノイズ付加による想起能力の向上
- 自己連想記憶ニューラルネットワークの引き込み領域 : 誤想起を減らす手法の提案
- 近傍モデル遺伝的アルゴリズムによる多目的最適化
- RBFを用いた進化型ハードウェアによる適応等化器
- RBFを用いた進化型ハードウェアによる適応等化器
- 遺伝的アルゴリズムを用いた時変環境におけるQ-learning