運動-視覚ダイナミクス学習と線形ベルマン方程式によるロボット制御(一般,機械学習によるバイオデータマインニング,一般)
スポンサーリンク
概要
- 論文の詳細を見る
Todorov[1]はコスト関数の形式に制限を加え変数変換を行うことでBellman方程式を厳密に線形化しする手法を提案した。これによりBellman方程式は固有値問題に帰着され解析的に価値関数と最適制御則を導出することが可能となった。連続状態空間において線形化Bellman方程式は固有関数を解く問題となるが、既にTodorovにより関数近似を用いることで固有関数を導出する手法が示されている[2]。この連続状態空間での非線形最適制御則は、ロボット制御の応用に適したものであるが、システムのダイナミクスが既知と仮定しており、実機においてそれが既知であることは稀である。またポールの振り上げ課題などの低次元の場合についてのみ検証されていた。本研究では、観測と行動の系列から運動視覚ダイナミクスを推定し、得られたダイナミクスにTodorovの手法を適用して最適制御則を獲得する方法を提案し、高次元の状態行動空間をもつ実機に対して適用を行った。タスクとして移動ロボットの視覚にもとづくナビゲーション課題を用いた実験を通して、指数価値関数にもとづく制御において適切な行動が獲得できた。またLQRと同一問題設定のもとでは、価値関数による制御はLQR以上の性能を得られた。
- 2012-06-21
著者
-
内部 英治
沖縄科学技術大学院大学先行研究事業
-
内部 英治
沖縄科学技術研究基盤整備機構
-
吉本 潤一郎
沖縄科学技術大学院大学先行研究,奈良先端科学技術大学院大学
-
銅谷 賢治
沖縄科学技術大学院大学 先行研究 神経計算ユニット
-
金城 健
奈良先端科学技術大学院大学情報科学研究科
-
金城 健
奈良先端科学技術大学院大学情報科学研究科:沖縄科学技術研究基盤整備機構神経計算ユニット
-
内部 英治
沖縄科学技術研究基盤整備機構神経計算学ユニット
-
吉本 潤一郎
沖縄科学技術研究基盤整備機構神経計算学ユニット:奈良先端科学技術大学院大学情報科学研究科
-
銅谷 賢治
沖縄科学技術研究基盤整備機構神経計算学ユニット:奈良先端科学技術大学院大学情報科学研究科
-
金城 健
奈良先端科学技術大学院大学情報科学研究科:沖縄科学技術研究基盤整備機構神経計算学ユニット
関連論文
- モデルフリーとモデルベース戦略の課題依存的な選択(BCI/BMIとその周辺)
- 感覚情報の能動的低次元化による強化学習(機械学習によるバイオデータマインニング,一般)
- 自然方策こう配法 : 平均報酬の自然こう配に基づく方策探索(人工知能,認知科学)
- センサフィードバックを用いたCPG制御における環境ダイナミクスと観測の不確定性の影響
- 線条体における入力タイミングに依存するカルシウム応答モデル
- 自然 TD 学習 : 割引報酬における TD 誤差を利用する自然方策勾配に基づいた強化学習法
- 生命科学と制御 : 《第13回》座談会「制御と生命科学」
- 強化学習エージェントによる協調行動とコミュニケーションの創発(シンポジウム特集)
- 線条体シナプス可塑性の分子機構のシミュレーション研究(セッション3:『バイオモデリング,シミュレーション』)
- 生化学反応系のためのベイズ的システム同定法(機械学習によるバイオデータマイニング)
- 生化学反応系のためのベイズ的システム同定法(機械学習によるバイオデータマインニング)
- 生命科学と制御 : 《第12回》脳の目的関数とは何か
- Max-Min Actor-Criticによる複数報酬課題の強化学習(人工知能,認知科学)
- 行動学習データの強化学習モデルによる解析とその応用
- 行動学習データの強化学習モデルによる解析とその応用(コミュニケーション支援及び一般)
- 行動学習データの強化学習モデルによる解析とその応用(コミュニケーション支援及び一般)
- 近傍成分分析による行動指向的状態表現の獲得
- 複数の報酬によって与えられる拘束のもとでの強化学習(「機械学習によるバイオデータマインニング」及び「一般」)
- 複数の価値関数を用いた多目的強化学習
- 2A1-N-044 構造の異なる複数の学習器の相互作用を利用した強化学習システム(認知ロボティクス1,生活を支援するロボメカ技術のメガインテグレーション)
- 複数報酬のもとでの階層強化学習
- 重点サンプリングを用いた複数強化学習器の同時学習
- サイバーローデントプロジェクト
- 脳の中のコンピュータ--小脳,大脳基底核,海馬,大脳皮質の回路と物質機構 (特集 コンピュータと脳)
- 線形ベルマン方程式に基づくロボット制御 : システム同定と指数価値関数近似
- 神経スパイク列からのモデルベースシナプス同定法(合同企画セッション:バイオデータマイニング,機械学習によるバイオデータマインニング,一般)
- 系列運動の自律学習におけるラットの適応的な学習法選択(一般講演,機械学習によるバイオデータマインニング,一般)
- 制限付きボルツマンマシンとエコーステートネットワークによる部分観測マルコフ決定問題の解法(一般講演,機械学習によるバイオデータマインニング,一般)
- 1SK-05 統計的学習法を用いた神経スパイクデータからのシナプス結合推定(1SK 高速計算機シミュレーションによる生体機能解析へのアプローチ,日本生物物理学会第49回年会(2011年度))
- 運動-視覚ダイナミクス学習と線形ベルマン方程式によるロボット制御
- 運動-視覚ダイナミクス学習と線形ベルマン方程式によるロボット制御 (ニューロコンピューティング)
- 遅延報酬の割引に対するセロトニンの効果 : 精神疾患の病態理解への応用
- 運動-視覚ダイナミクス学習と線形ベルマン方程式によるロボット制御(一般,機械学習によるバイオデータマインニング,一般)
- タイトル無し
- 機能局在を考慮したL1正則化ロジスティック回帰法によるfMRIデータ解析(機械学習によるバイオデータマインニング,一般)