複数の状態予測と報酬予測モデルによる強化学習と行動目標の推定(バイオサイバネティックス,ニューロコンピューティング)
スポンサーリンク
概要
- 論文の詳細を見る
本研究では,複数の状態予測モデルと報酬予測モデルの組合せによって出力が決定されるモジュール強化学習方式"Combinatorial Model-based Reinforcement Learning (CMRL)"を提案する.CMRLはそれぞれ複数の状態予測モデル・報酬予測モデルとコントローラにより構成される.まず予測値の正確さにより状態予測モデルと報酬予測モデルの組が選ばれる.そして選ばれた組に対する各コントローラのTD誤差が計算され,誤差の2乗値が小さかったものの制御出力値が採用される.提案方式によって,同一のダイナミックスのもとで報酬関数が切り換わるような場合でも適切なコントローラの選択が可能になる.更にCMRLのモジュール構造によって,相手の運動軌道から報酬関数,つまり行動の意図を推定する見まね学習方式を提案する.相手の用いているモジュールの系列を己が獲得しているモデルを用いて推測を行うため,両者のパラメータが異なる場合であっても,制御可能な範囲で見まねを行うことができる.
- 社団法人電子情報通信学会の論文
- 2004-02-01
著者
-
川人 光男
国際電気通信基礎技術研究所脳情報研究所
-
銅谷 賢治
奈良先端科学技術大学院大学
-
川人 光男
奈良先端科学技術大学院大学
-
川人 光男
(株)atr計算論的神経科学プロジェクト
-
川人 光男
株式会社国際電気通信基礎技術研究所(atr)脳情報研究所
-
銅谷 賢治
奈良先端科学技術大学院大学:atr脳情報研究所:沖縄新大学院大学先行的研究事業神経計算プロジェクト
-
鮫島 和行
ATR脳情報研究所
-
杉本 徳和
奈良先端科学技術大学院大学
-
杉本 徳和
ATR脳情報研究所
-
鮫島 和行
玉川大学脳科学研究所
-
川人 光男
(株)国際電気通信基礎技術研究所 脳情報研究所
-
鮫島 和行
東京農工大学大学院工学研究科
-
川人 光男
株式会社国際電気通信基礎技術研究所脳情報通信総合研究所
関連論文
- 脳磁図逆問題における複数のアーチファクト源と脳内電流分布の同時推定法(バイオサイバネティックス,ニューロコンピューティング)
- 手の系列運動における選択的サッカード(脳・ヒューマンモデリング1, 脳・ヒューマンモデリング, 一般)
- 比較的速い運動におけるフィードフォワードインピーダンス制御による精度の向上(バイオサイバネティックス,ニューロコンピューティング)
- 脳活動における多重内部モデルの再構成(バイオサイバネティックス,ニューロコンピューティング)
- タスク最適化とスティフネスの選択(統計的学習理論及び一般)
- 運動指令の大きさに依存した雑音のもとでの最大タスク達成軌道生成モデル
- 複数のノイズ源と大脳皮質の同時電流推定によるMEGアーチファクト除去(一般,機械学習によるバイオデータマインニング・生命現象の非線形性,一般)
- 経由点到達運動の位置分散は軌道計画・実行の逐次モデルを支持する(バイオサイバネティックス,ニューロコンピューティング)
- fMRI/MEG統合解析による心的な視標運動追跡に関わる皮質電流源の推定(一般,ベイズ情報処理及び一般)
- MEGとEOGを用いた眼球と大脳皮質の同時電流源推定によるMEG眼球アーチファクト除去(一般, 脳・ヒューマンモデリング, 一般)
- 眼球と大脳皮質の同時電流源推定による MEG 眼球アーチファクト除去
- 自然方策こう配法 : 平均報酬の自然こう配に基づく方策探索(人工知能,認知科学)
- 道具使用イメージ時の小脳活動 : fMRI研究(ヒューマンコミュニケーション)
- 二つの粘性力場への同時適応と切換(バイオサイバネティックス、ニューロコンピューティング)
- 道具使用時の脳活動量と言語課題時に現れる脳活動量の相関関係(「脳・認知科学」及び一般)
- 複数の粘性力場に対する効果的な学習法の検討(「脳・認知科学」及び一般)
- 効果器の変化に対するヒトの適応 : 力制御課題中の筋へ電気刺激を外乱として用いて
- 速度依存力場と位置依存力場に対する内部モデルの独立性 : 多重内部モデルの検証(バイオサイバネティックス, ニューロコンピューティング)
- 効果器間協調における順モデル使用の可能性 : ヒトの把持力負荷力結合モデルの仮説の検討(バイオサイバネティックス, ニューロコンピューティング)
- 複数の粘性力場に対する多重内部モデルの獲得とそのスイッチング
- ヒトの効果器間協調における順モデル使用の妥当性
- 小脳単純スパイクはサル上肢運動のダイナミクスを表現するか?
- III-9P3-6 筋活動の変化に対する適応 : 力制御課題施行中の筋へ,電気刺激を外乱として用いて(運動生理2)
- ヒト円滑性追跡眼球運動における非周期視標運動の予測と学習(「脳・認知科学」及び一般)
- 局所回路間の振動位相変化による相互作用の制御
- サル側頭葉顔細胞のVB法による混合正規分布解析
- サル側頭葉の顔細胞の集団ダイナミクス : MDSによる解析と連想記憶回路によるモデル化
- 熟練到達運動において目標軌道は存在するか(バイオサイバネティックス, ニューロコンピューティング)
- 登上線維入力が小脳プルキンエ細胞の活動に与える影響(脳・ヒューマンモデリング1, 脳・ヒューマンモデリング, 一般)
- 複数の粘性力場に対する多重内部モデルの獲得
- 小脳単純スパイクの線形和はサル上肢筋電時系列を再構成する
- 脳神経系研究のためのヒューマノイドロボット(ヒューマノイドロボット)
- ヒト大脳皮質における円滑性追跡眼球運動のための視標運動予測に関連する領域の機能的同定
- MST野細胞集団の巡回神経結合に基づく円滑性追跡眼球運動モデル
- 円滑性追跡眼球運動のモデル : ヒューマノイド研究から脳科学へ
- ポピュレーション符号から発火率符号への学習による変換 : 円滑性追跡眼球運動の神経表現
- MST野の細胞集団ダイナミクスを含む円滑性追跡眼球運動モデルとその計算理論
- ベイズフィルタによる円滑性追跡眼球運動のモデル化
- プロジェクトの概要とロボット研究
- ポピュレーション符号から発火率符号への学習による変換 : 円滑性追跡眼球運動の神経表現
- MST野のポピュレーション符号化と神経場モデルによる, 円滑性追跡眼球運動のシミュレーション
- 視覚ターゲットのダイナミクス学習に基づく円滑性追跡眼球運動とそのヒューマノイドへの実装
- 動作筋電図に混入した心電図成分の除去方法 : 心電図のピーク検出を利用して
- ブレインコンピュータインタフェースについて(バイオニックヒューマン〜生体機械融合インタフェース〜)
- 空間的情報を含むマルコフ決定課題を用いた長期と短期の報酬予測に伴う脳活動のfMRI測定
- 短期と長期の報酬予測に伴う脳活動のfMRI測定
- 拡張結合混合モデルを用いた脳活動解析
- 道具を使うことをイメージした時の脳活動 : fMRIによる脳活動計測
- センサフィードバックを用いたCPG制御における環境ダイナミクスと観測の不確定性の影響
- 小脳プルキンエ細胞への入力タイミングをCa^2+濃度に変換するシグナル伝達のシミュレーション
- 画像生成過程の順モデル・近似逆モデルに基づく非線形視覚問題の一解法
- 陰影による形状知覚の階層的計算モデル
- MOSAICモデルにより環境を抽象化する階層型強化学習(バイオサイバネティックス,ニューロコンピューティング)
- 座談会 神経科学と理論研究の交流から生まれたもの
- 脳科学の新世紀 "脳を活かす"新しい潮流
- マルチエージェント環境における共通なシンボルの生成(脳・ヒューマンモデリング2, 脳・ヒューマンモデリング, 一般)
- 複数の状態予測と報酬予測モデルによる強化学習と行動目標の推定(バイオサイバネティックス,ニューロコンピューティング)
- 教示者の行動目標を推定する見まね学習
- 教示者の行動目標を推定する見まね学習(PRMU&NCテーマセッション(4) : 模倣学習)(認識と学習,模倣学習)
- 教示者の行動目標を推定する見まね学習(PRMU&NCテーマセッション(4) : 模倣学習)(認識と学習,模倣学習)
- ダイナミクスの線形性に基づいて状態空間を分割する階層型強化学習
- 奥行補完の時空間特性
- 奥行き知覚における視覚的充填のダイナミクス
- 輪郭運動方向の計算における充填過程と大局的バインディング
- 輪郭運動方向の計算における充填過程と大局的バインディング
- 視覚系は緩和計算をもちいているか?
- 動く輪郭の速度知覚 : 視覚系は繰り返し計算を用いているか
- 動く輪郭の速度知覚 : 視覚系は繰り返し計算を用いているか
- 変分法的ベイズ推定を用いた相互情報量の推定
- 回避行動の再利用メカニズムを備えた強化学習手法と多関節ロボットの全身運動学習への応用
- 回避行動の再利用メカニズムを備えた強化学習のための関数近似器修正手法と多関節ロボットへの応用
- 考えるだけで機械やロボットを動かす Brain Machine Interface 技術
- 階層型強化学習を用いた3リンク2関節ロボットによる起立運動の獲得
- 科学技術振興調整費目標達成型脳科学研究推進制度「ヒトを含む霊長類のコミュニケーションの研究」 : (小特集:)
- Max-Min Actor-Criticによる複数報酬課題の強化学習(人工知能,認知科学)
- 異なった時間遅れを持つ感覚モダリティーを用いた実時間運動学習機構
- 淡蒼球内節/黒質網様部の強化学習による確率的行動選択(一般)(ニューロインフォーマティックスとは何か)
- 淡蒼球内節/黒質網様部の強化学習による確率的行動選択
- 複数の状態予測と報酬予測モデルによる強化学習と行動目標の推定
- 複数の予測モデルを用いた強化学習による非線形制御
- 強化学習MOSAIC : 予測性によるシンボル化と見まね学習
- NC2000-48 複数モデルベース強化学習におけるモジュール間の評価割り付け
- 明るさ知覚の計算理論と神経回路モデル - 充てん過程のマルコフ確率場モデル -
- ブレイン-ネットワーク-インタフェースによる操作脳科学 (特集・脳科学が求める先端技術)
- 脳とロボットを計算論的神経科学で繋ぐ--ブレイン・ロボット・インタフェース (特集:ロボティクスと神経科学)
- 生物における階層系列学習に関する考察
- 学習ダイナミクスの制御と脳の物質機構(システムと生命総合特集号)
- 連続書字運動の計算論的モデル
- 脳と機械の融合はどこまで許されるか ブレイン・マシン・インタフェース BMI倫理4原則の提案
- 脳情報通信とブレイン・マシン・インタフェース
- 脳を繋ぐ研究の最前線(特別講演1,特別企画,リハビリテーション医学の進歩"評価から治療介入へ",第45回日本リハビリテーション医学会学術集会)
- モジュール競合による運動パターンのシンボル化と見まね学習
- 計算神経科学の挑戦〔含 討論〕 (特集 ヒト知性の脳科学はどこまで可能か) -- (討論 脳と言語と心の科学--その研究アプローチを探る)
- ヒト知性の計算神経科学(6:最終回)ヒトの知性に計算理論はどこまで迫れるか
- ヒト知性の計算神経科学(第5回その2)モザイクの拡張とコミュニケーション
- ヒト知性の計算神経科学(第5回その1)モザイクの拡張とコミュニケーション
- 複数の予測器と制御器による系列運動の識別と学習
- 小脳内部モデルとモザイクの計算論的神経科学
- 運動学習から認知へ
- 色と動きに対する選択的注意に関する研究