制限付きボルツマンマシンとエコーステートネットワークによる部分観測マルコフ決定問題の解法(一般講演,機械学習によるバイオデータマインニング,一般)
スポンサーリンク
概要
- 論文の詳細を見る
部分観測マルコフ決定過程(POMDP)により定式化される環境下において最適な行動選択を実現するためのアプローチには、環境のダイナミクスに関する事前知識を利用するモデルベースなアプローチと、それらを必要としないモデルフリーなアプローチがある。本研究では、エコーステートネットーワーク(ESN)と制限付きボルツマンマシン(RBM)を組み合わせたモデルフリーな手法を提案する。シミュレーター上で行ったロボットナビゲーションタスクの結果、提案手法が、エコーステートネットワークの持つ長期予測能力と制限付きのボルツマンマシンの持つ高次元入力に対するロバスト性を合わせ持つことが示された。また、ESNの隠れ層がタスクに必要となる過去の情報を高次元入力から抽出し保持していること、RBMの隠れ層がタスク依存な情報表現をしていることなどが示された。
- 2011-06-16
著者
-
大塚 誠
沖縄大学院大学先行研究プロジェクト:奈良先端科学技術大学院大学
-
吉本 潤一郎
Oist:奈良先端科学技術大学院大学
-
銅谷 賢治
奈良先端科学技術大学院大学情報科学研究科:沖縄科学技術研究基盤整備機構
-
吉本 潤一郎
沖縄科学技術大学院大学先行研究,奈良先端科学技術大学院大学
-
銅谷 賢治
沖縄科学技術大学院大学 先行研究 神経計算ユニット
-
大塚 誠
沖縄科学技術大学院大学神経計算ユニット
-
Elfwing Stefan
沖縄科学技術大学院大学神経計算ユニット
-
吉本 潤一郎
沖縄科学技術研究基盤整備機構神経計算学ユニット|奈良先端科学技術大学院大学情報科学研究科
関連論文
- モデルフリーとモデルベース戦略の課題依存的な選択(BCI/BMIとその周辺)
- 自由エネルギーを用いた強化学習による状態のタスク依存な集団符号化(一般,機械学習によるバイオデータマインニング・生命現象の非線形性,一般)
- 自然方策こう配法 : 平均報酬の自然こう配に基づく方策探索(人工知能,認知科学)
- 線形ダイナミカルシステムモデルの変分ベイズ推定による遺伝子発現時系列のシステム同定
- 強化学習の基礎理論と応用
- センサフィードバックを用いたCPG制御における環境ダイナミクスと観測の不確定性の影響
- 線条体における入力タイミングに依存するカルシウム応答モデル
- 遅延を伴う確率的報酬獲得課題におけるヒトの意思決定に関する研究(一般セッション3)
- 自然 TD 学習 : 割引報酬における TD 誤差を利用する自然方策勾配に基づいた強化学習法
- マルチエージェント環境におけるコミュニケーションの段階的創発(セッション : 社会システムと知能(エージェントモデルと意思決定), 「社会システムにおける知能」及び一般)
- マルチエージェント環境におけるコミュニケーションの段階的創発
- 生命科学と制御 : 《第13回》座談会「制御と生命科学」
- 強化学習と最適制御(「システム制御理論の新領域特集号」)
- 線条体シナプス可塑性の分子機構のシミュレーション研究(セッション3:『バイオモデリング,シミュレーション』)
- 生化学反応系のためのベイズ的システム同定法(機械学習によるバイオデータマイニング)
- 生化学反応系のためのベイズ的システム同定法(機械学習によるバイオデータマインニング)
- 混合カルマンフィルタによる隠れ状態推定法 : Cyber Rodentの自己位置同定への応用
- 生命科学と制御 : 《第12回》脳の目的関数とは何か
- 行動学習データの強化学習モデルによる解析とその応用
- 行動学習データの強化学習モデルによる解析とその応用(コミュニケーション支援及び一般)
- 行動学習データの強化学習モデルによる解析とその応用(コミュニケーション支援及び一般)
- 近傍成分分析による行動指向的状態表現の獲得
- モデル誤差を考慮した強化学習法による実ロボットの適応制御
- 複数制御器の切換学習法による実アクロボットの制御(人工知能)
- 淡蒼球内節/黒質網様部の強化学習による確率的行動選択(一般)(ニューロインフォーマティックスとは何か)
- 淡蒼球内節/黒質網様部の強化学習による確率的行動選択
- 大脳基底核-強化学習モデルによる線条体神経細胞活動の記録と予測
- 行動決定系列からの学習系の内部状態/パラメータ系列の推定
- 強化学習と大脳基底核(運動学習)
- 脳の中のコンピュータ--小脳,大脳基底核,海馬,大脳皮質の回路と物質機構 (特集 コンピュータと脳)
- 意思決定と行動学習の数理モデル (特集 学習と記憶--基礎と臨床)
- Solving POMDPs using restricted Boltzmann machines with echo state networks (ニューロコンピューティング)
- 神経スパイク列からのモデルベースシナプス同定法 (ニューロコンピューティング)
- 線形ベルマン方程式に基づくロボット制御 : システム同定と指数価値関数近似
- 神経スパイク列からのモデルベースシナプス同定法(合同企画セッション:バイオデータマイニング,機械学習によるバイオデータマインニング,一般)
- 系列運動の自律学習におけるラットの適応的な学習法選択(一般講演,機械学習によるバイオデータマインニング,一般)
- 制限付きボルツマンマシンとエコーステートネットワークによる部分観測マルコフ決定問題の解法(一般講演,機械学習によるバイオデータマインニング,一般)
- 1SK-05 統計的学習法を用いた神経スパイクデータからのシナプス結合推定(1SK 高速計算機シミュレーションによる生体機能解析へのアプローチ,日本生物物理学会第49回年会(2011年度))
- 運動-視覚ダイナミクス学習と線形ベルマン方程式によるロボット制御
- 運動-視覚ダイナミクス学習と線形ベルマン方程式によるロボット制御 (ニューロコンピューティング)
- 遅延報酬の割引に対するセロトニンの効果 : 精神疾患の病態理解への応用
- 運動-視覚ダイナミクス学習と線形ベルマン方程式によるロボット制御(一般,機械学習によるバイオデータマインニング,一般)
- 強化学習の最近の発展(第10回)脳の意思決定機構と強化学習
- タイトル無し
- 機能局在を考慮したL1正則化ロジスティック回帰法によるfMRIデータ解析(機械学習によるバイオデータマインニング,一般)