強化メタ学習則による遅延報酬問題の解決(学習,生体モデル,神経ダイナミクス,一般)
スポンサーリンク
概要
- 論文の詳細を見る
スパイクタイミング依存性シナプス可塑性(STDP)は,可塑性を引き起こす前のシナプス強度に依存し,その初期強度依存性は増強と減弱で非対称であることが知られている.この事実をそのまま解釈すると,全てのシナプスの強度はその依存性だけで決まるようなある範囲に落ち着いてしまい,入出力の履歴をほとんど反映しない,という問題が指摘されている.我々はこの問題を解決するために,シナプス増強のレベルが強化信号によって変化する強化メタ学習則を提案し,非対称な初期強度依存性を用いたまま,入力の相関を反映したシナプスパターンが獲得されることをシミュレーションで示した.ここで導入した強化信号は,動物が得た報酬に由来し,脳全体に広がることを想定している.報酬は動物が行った行動の結果として得られるものであり,その行動を生んだ神経活動は,報酬より数秒以上先行している.時間的に離れた報酬との関係をどのように神経系で強化するか,という問題は遅延報酬問題と呼ばれ,一般に解決が困難である.ここでは,我々が提案している強化メタ学習則は,1〜2秒後に得られる報酬に相関のある入力が入ってきたシナプスだけ増強されることをシミュレーションで示し,遅延報酬問題も自然に解決することを示した.
- 2009-01-12
著者
関連論文
- 強化メタ学習則による遅延報酬問題の解決(学習,生体モデル,神経ダイナミクス,一般)
- オータムスクールASCONE2008脳科学への数理的アプローチ : 道免和久先生の講義録「脳科学とリハビリテーション医療」
- ASCONE2009報告
- ASCONE実施報告
- 「学習行動主義」のススメ
- AS-1-4 リカレントネットワークにおける単一指向性興奮伝播の生成(AS-1.脳にインスパイアされたシステムとその応用,シンポジウムセッション)