行動決定系列からの学習系の内部状態/パラメータ系列の推定
スポンサーリンク
概要
- 論文の詳細を見る
本研究の目的は、自律的な学習系の内部状態や結合荷重などのパラメータ,学習速度などのメタパラメータなど直接観測できない変数を入出力など観測可能な変数から推定する手法を確立することである。神経科学では脳内の神経活動と感覚入力や行動との相関を求めることにより、その機能の推定が行われる。しかし、高次脳機能モデルを検証する場合、神経活動を感覚運動情報として直接観測できない変数との相関を求める必要が出てくる。さらに学習系ではその内部変数は時間とともに変化し、その変化の仕方は個体や試行ごとに異なる。このような隠れた変数を観測可能な変数から推定する手法として、ベイズ推定がある。ベイズ推定では、学習系が用いている内部変数やパラメータなどの依存関係を与えるモデル構造を仮定した上で、その内部変数やパラメータの確率分布をデータの事後分布として推定する。今回我々は、人間や動物が確率的に得られる報酬を最大化する課題において、報酬の期待値を行動選択のパラメータとして持ち、それらが学習速度などのメタパラメータにより変化する強化学習モデルを仮定し、行動出力と報酬信号の時系列からパラメータとメタバラータの推定を行う方法を定式化する。それを、サルの行動実験データに適用し、推定されたパラメータにおけるモデルと実際の行動の一致度を評価する。
- 2003-03-12
著者
-
木村 實
京都府立医科大学 神経生理学
-
鮫島 和行
ATR脳情報研究所
-
銅谷 賢治
奈良先端科学技術大学院大学情報科学研究科:沖縄科学技術研究基盤整備機構
-
銅谷 賢治
Atr人間情報科学研究所
-
鮫島 和行
玉川大学脳科学研究所
-
鮫島 和行
ATR人間情報科学研究所第3研究室
-
上田 康雅
京都府立医科大学神経生理学部門
-
上田 康雅
京都府立医科大学第二生理学教室
-
鮫島 和行
東京農工大学大学院工学研究科
関連論文
- モデルフリーとモデルベース戦略の課題依存的な選択(BCI/BMIとその周辺)
- 自由エネルギーを用いた強化学習による状態のタスク依存な集団符号化(一般,機械学習によるバイオデータマインニング・生命現象の非線形性,一般)
- 自然方策こう配法 : 平均報酬の自然こう配に基づく方策探索(人工知能,認知科学)
- 短-中-長期記憶形成モデルにおける海馬周辺領野のDynamicsについて
- 強化学習の基礎理論と応用
- 特集「意図研究のスペクトル」にあたって
- 脳内報酬情報処理に及ぼす知覚的暖昧性の影響
- 知覚確率が報酬予測誤差に及ぼす影響
- センサフィードバックを用いたCPG制御における環境ダイナミクスと観測の不確定性の影響
- 線条体における入力タイミングに依存するカルシウム応答モデル
- MOSAICモデルにより環境を抽象化する階層型強化学習(バイオサイバネティックス,ニューロコンピューティング)
- 複数の状態予測と報酬予測モデルによる強化学習と行動目標の推定(バイオサイバネティックス,ニューロコンピューティング)
- ダイナミクスの線形性に基づいて状態空間を分割する階層型強化学習
- 遅延を伴う確率的報酬獲得課題におけるヒトの意思決定に関する研究(一般セッション3)
- 自然 TD 学習 : 割引報酬における TD 誤差を利用する自然方策勾配に基づいた強化学習法
- OB-06 ヒトにおける報酬関連脳活動と知覚的曖昧性(日本動物心理学会第68回大会発表要旨)
- 強化学習と最適制御(「システム制御理論の新領域特集号」)
- 線条体シナプス可塑性の分子機構のシミュレーション研究(セッション3:『バイオモデリング,シミュレーション』)
- 生化学反応系のためのベイズ的システム同定法(機械学習によるバイオデータマイニング)
- 生化学反応系のためのベイズ的システム同定法(機械学習によるバイオデータマインニング)
- 混合カルマンフィルタによる隠れ状態推定法 : Cyber Rodentの自己位置同定への応用
- 行動学習データの強化学習モデルによる解析とその応用
- 行動学習データの強化学習モデルによる解析とその応用(コミュニケーション支援及び一般)
- 行動学習データの強化学習モデルによる解析とその応用(コミュニケーション支援及び一般)
- モジュール強化学習と意図(意図研究のスペクトル)
- 報酬依存性動作制御と大脳基底核 (第1土曜特集 脳科学の先端的研究--遺伝子から高次機能まで) -- (高次機能)
- 淡蒼球内節/黒質網様部の強化学習による確率的行動選択(一般)(ニューロインフォーマティックスとは何か)
- 淡蒼球内節/黒質網様部の強化学習による確率的行動選択
- 大脳基底核-強化学習モデルによる線条体神経細胞活動の記録と予測
- 重点サンプリングを用いた複数強化学習器の同時学習
- 行動決定系列からの学習系の内部状態/パラメータ系列の推定
- 強化学習とメタ学習の脳内機構 : 大脳基底核と神経修飾物資系
- 複数の状態予測と報酬予測モデルによる強化学習と行動目標の推定
- 強化学習の計算論 (強化学習とその周辺)
- 大脳基底核と強化学習 (強化学習とその周辺)
- 強化学習と大脳基底核(運動学習)
- 複数の予測モデルを用いた強化学習による非線形制御
- 強化学習MOSAIC : 予測性によるシンボル化と見まね学習
- NC2000-48 複数モデルベース強化学習におけるモジュール間の評価割り付け
- 局所線形モデルに基づく状態分割を用いた階層強化学習
- 強化学習における適応的状態空間構成法
- 報酬、脳と社会
- 大脳基底核の運動制御メカニズム
- 視床線条体系による大脳皮質基底核ループ機能のモニターと切り替え (特集 脳の深部を探る)
- 〔総説〕大脳皮質基底核系の機能研究
- 大脳基底核と手の運動の強化学習 (特集 手の運動の制御と学習)
- 脳の世紀への手紙(第10回)運動計画と大脳基底核
- 大脳基底核と強化学習
- 運動の学習と記憶の神経機構(第47回大会キーノートレクチャー : 運動生理学)
- 運動の学習と記憶の神経機構
- 運動学習における黒質線条体系の役割 (大脳基底核)
- 意思決定と行動学習の数理モデル (特集 学習と記憶--基礎と臨床)
- モジュール競合による運動パターンのシンボル化と見まね学習
- 強化学習における分割による自律的状態空間構成法
- 報酬の予測に基づくロボットの学習と脳のモデル (「1997年情報学シンポジウム」プログラム--人と情報学の調和をめざして) -- (生命体と情報処理1)
- 小鳥の歌の学習 (特集 生命システムの多様性--モデル化による理解)
- 神経スパイク列からのモデルベースシナプス同定法 (ニューロコンピューティング)
- 行動の学習と記憶における大脳基底核の機能 (特集 プロジェクト研究)
- 線形ベルマン方程式に基づくロボット制御 : システム同定と指数価値関数近似
- ASCONE実施報告
- 神経スパイク列からのモデルベースシナプス同定法(合同企画セッション:バイオデータマイニング,機械学習によるバイオデータマインニング,一般)
- 制限付きボルツマンマシンとエコーステートネットワークによる部分観測マルコフ決定問題の解法(一般講演,機械学習によるバイオデータマインニング,一般)
- 運動学習に伴う線条体ニューロンの活動の変容におけるドパミン系とGABA系の役割
- ASCONE06 開催報告
- NIPS*2003 参加報告
- 運動-視覚ダイナミクス学習と線形ベルマン方程式によるロボット制御
- 第5回神経情報処理国際会議(ICONIP'98-Kitakyushu)
- 神経情報科学サマースクール(NISS)2002報告 : 神経情報科学サマースクール2002概況
- NIPS^*94報 告