Profit Sharingの計算量を改良するアルゴリズムの提案(人工知能)
スポンサーリンク
概要
- 論文の詳細を見る
強化学習のアルゴリズムの一つに,Profit Sharing (PS)がある.従来のPS (Off-PS)はオフライン更新型であり,選択した状態行動対をすべて記憶する必要がある.そのため,ゴールにたどり着くまでの道のりが非常に長く複雑な場合,使用するメモリ量に上限がなくなってしまう欠点がある.それを改善したのが,オンライン更新型PS (On-PS)である.このOn-PSでは,従来のOff-PSと等価ながら,メモリ量を有限とすることができる.しかし,計算時間がOff-PSよりもはるかに大きくなってしまうという問題がある.そこで,本研究ではOff-PSと等価ながらメモリ量を有限にし,なおかつOn-PSよりも計算時間を大幅に削減する手法を提案する.また,提案手法の計算量を他の2手法と理論的な比較を行い,更に具体例としてAcrobot Problemに実装することによって,提案手法の有効性を示す.
- 2007-08-01
著者
関連論文
- Tsallis統計力学の背景と新展開(最近の研究から)
- Profit Sharingの計算量を改良するアルゴリズムの提案(人工知能)
- A-2-2 淘汰アルゴリズムを用いた自己組織化ネットワークの改善と頑健性(A-2.非線形問題,一般セッション)
- A-2-11 学習効果を用いた振動子ネットワークのスケールフリー生成アルゴリズム(A-2.非線形問題,一般セッション)
- エントロピーの公理的定式化から複雑系の理論へ(シャノンの論文から60年)
- A-2-4 GAによるCPGパラメータの最適化と足踏みシミュレーション(A-2.非線形問題,一般講演)
- A-2-24 優先的選択を用いた進化ゲームにおけるネットワーク構造の変化(A-2.非線形問題,一般セッション)
- 学習効果と張替を用いたスケールフリー振動子ネットワークの生成アルゴリズム(非線形問題)
- A-6-2 相対エントロピーを用いた図形分節
- A-2-18 GHSOMによるリンク構造を持つデータの分類および可視化(A-2.非線形問題,一般セッション)
- Tsallisエントロピー
- A-013 低次元アトラクタによる運動遷移の一手法(A分野:モデル・アルゴリズム・プログラミング)
- A-2-22 振動子ネットワークにおける引き込み現象の転移(A-2.非線形問題,一般セッション)
- ニューラルネットワークモデルの空間的粗視化による1/ƒスペクトルの導出
- D-2-7 2値の重みをもつパーセプトロンの記憶容量とパターン間の距離の関係について
- A-2-7 スケールフリー振動子ネットワークの頑健性について(A-2.非線形問題,一般セッション)
- A-2-29 ロジスティック関数を用いた素性分割型SVMによる感情極性分類(A-2.非線形問題,一般セッション)
- 肝エコー信号の独立性に着目した病変情報抽出法(医用超音波,アコースティックイメージング技術の新展開論文)
- A-029 Twitterから生成した感情モデルと社会経済的現象との相関(数理モデル(2),A分野:モデル・アルゴリズム・プログラミング)