強化学習における部分観測問題のモデル設計に関する新しい最適解探索手法
スポンサーリンク
概要
- 論文の詳細を見る
徒弟学習などの,部分観測マルコフ決定過程 (POMDP) 上でのモデル設計問題においては,多くのPOMDPに対する最適方策を計算する必要があり,計算コストが問題となっていた.本稿では,計算コストを下げる手法として,転移学習と劣勾配計算の2つの手法を提案する.また,これらの手法が,方策改善型のPOMDPソルバーの上で効率的に実装が可能であることを示す.
著者
関連論文
- 21aEA-5 新規運動準備期に見られる内側運動野LFPのβ振動の減少(21aEA ニューラルネットワーク2,領域11(統計力学,物性基礎論,応用数学,力学,流体物理))
- ヴァイオリンの音はカオスか?
- 利他的行動と再帰的他者推定
- レビュー : 細胞傷害性 T 細胞による感染細胞除去率の推定 (第6回生物数学の理論とその応用)
- A-2-8 二次割り当て問題のニューラルダイナミクス解法におけるコーディング法の性能解析
- A-2-24 発火率制御を導入したカオスダイナミクスによる二次割り当て問題の解法
- A-2-6 カオスダイナミクスを用いた二次割り当て問題の一解法
- 宇都宮敏男先生を偲んで(追悼抄)
- 利他的行動と再帰的他者推定 (特集 工学とバイオ)
- 相互情報量を用いた聴皮質の情報表現の解析(BCI/BMIとその周辺,一般)
- リカレンスプロットを用いた変化点検出手法の提案
- STDPを有するCMOSスパイキングニューラルネットワークLSIの評価(ニューロハードウェア,ニューロハードウェア,一般)
- 完全差動ヒステリシス2P-VCCSカオス発振集積回路の測定
- サル前頭前野興奮性細胞・抑制性細胞における行動目標表現の遷移(一般(高次機能),脳インタフェースの技術と応用,一般)
- 感染症流行モデルによる感染力を低下させる予防手段の効果に関する試算
- ニホンアマガエル発声行動の相互作用に関する音声データの時系列解析
- 研究速報「ニホンアマガエル音声データの時系列解析」
- カオスニューロコンピュータハードウェアで二次割り当て問題を解くための解構築法の改良
- ニホンアマガエルの同期した発声行動に関する実験的研究およびその数理モデル解析
- アマガエル発声行動における同期現象とその数理モデル解析(第3回生物数学の理論とその応用)
- カオス時系列解析による中規模電力需要予測
- ニューラルカオスシステムにおけるノイズ誘起特性
- 共通ノイズによる局在興奮の確率共振
- NLP2000-41 / NC2000-35 1次元確率セルオートマトンのMarkov近似に関する数値解析
- Izhikevichモデルタイプのシリコンニューロン回路の設計
- しきい値処理により結合されたカオス力学系のパルス変調方式CMOS回路実現 (非線形問題)
- スイッチト・キャパシタスケール付β写像に基づくA/D変換回路の個別部品による実装(機械学習によるバイオデータマインニング,生命現象の非線形性,一般)
- ニューラルカオスシステムにおけるノイズ誘起特性
- 二次割り当て問題のための同期更新指数減衰カオスタブーサーチの改良
- 下オリーブ核における情報伝達効率に関する一考察
- 二次割り当て問題を解くアナログ/ディジタル混成カオスタブーサーチハードウェアシステムの測定
- AS-2-6 抑制性ニューロンモデルの結合系にみられる同期現象(AS-2.カオス同期とコンシステンシー,シンポジウム)
- A-2-33 2変数Hindmarsh-Rose型ニューロンのスパイク間隔統計(A-2.非線形問題,一般講演)
- 応用から生まれつつある新しい数学=数理工学(第11回)ニューロン(神経細胞)の数理モデル(2)ニューロンの離散時間モデル
- 二次割り当て問題を解くためのスイッチトカレントカオスニューロンICの改良
- 二次割り当て問題を解くためのスイッチトカレントカオスニューロンICの改良
- NLP2010-25 スイッチト・キャパシタスケール付β写像に基づくA/D変換回路の個別部品による実装(一般,機械学習によるバイオデータマインニング,生命現象の非線形性,一般)
- 東京都市圏パーソントリップ調査データに基づく新型インフルエンザ感染伝播の数理モデリング (特集 現代交通インフラ産業における危機管理)
- 大規模カオスニューラルネットワークの並列シミュレーション
- 28aPS-46 蔵本モデルにおける新しい同期普遍量の数値的解析(領域11ポスターセッション,領域11,統計力学,物性基礎論,応用数学,力学,流体物理)
- 完全差動ヒステリシス2ポートVCCSカオス発振器
- 完全差動マルチスクロール回路
- 進化ゲームダイナミクスにおける2倍体集団での変異遺伝子の固定確率 (第5回生物数学の理論とその応用)
- 結合カオス系における隠れた同期の検出 : カーネル正準相関分析に基づくアプローチ(2004年度後期基礎物理学研究所研究会「モンテカルロ法の新展開3」,研究会報告)
- 高次相関型サロゲート法による持続発声母音のピッチ解析 : 自然な音声合成のための知見
- 高次相関型サロゲート法による持続発声母音のピッチ解析 : 自然な音声合成のための知見
- 完全差動ヒステリシス2P-VCCSカオス発振集積回路の測定
- アナログ集積回路におけるスケールフリー性とスモールワールド性の考察 : 演算増幅器について(一般,機械学習によるバイオデータマインニング・生命現象の非線形性,一般)
- 高次元物理カオスダイナミクスによるアナログ計算
- A-2-42 動的連想記憶ネットワークの外部入力に対する応答について(A-2.非線形問題,一般講演)
- A-2-36 ヒステリシス2ポートVCCSに基づくカオス発振器の集積回路化(A-2.非線形問題,一般講演)
- A-2-25 カオスニューラルネットワークにおける解構築法の一改良(A-2.非線形問題,一般講演)
- A-1-41 アクティブインダクタを用いた電圧制御発振器の一構成法(A-1.回路とシステム,一般講演)
- フローティングゲートMOSFETを用いた一次元離散時間力学系集積回路 (第20回 回路とシステム軽井沢ワークショップ論文集) -- (非線形回路の解析と設計)
- フルートの運指のモデル化とその最適化に関する研究
- EL5 数理モデルに基づくテーラーメード前立腺癌内分泌療法(教育講演5,第98回日本泌尿器科学会総会)
- 免疫系に関する数理モデル研究 (特集 工学とバイオ)
- 脳と宇宙を考える
- 学習に伴うラット聴皮質の情報表現の変化
- 相互情報量を用いた聴皮質の情報表現の解析
- パルス変調方式を用いた電流サンプリング型CMOS任意カオス生成回路
- LIFモデルにおける高次の発火エルゴード性(機械学習によるバイオデータマインニング,一般)
- 他者理解をシミュレーションする(シミュレーションの世界)
- 生研公開講演「生命システムの数理モデリングとその応用」
- Y系超電導体を用いた真空用Y-X2自由度マイクロアクチュエ-タ (マイクロマシン)
- 免疫系と記憶 (記憶特集) -- (生物の遺伝子と記憶)
- 免疫システムと生体防衛機能
- 生体内の分散監視・防衛システム (シナジエティックス)
- 時系列解析手法を用いた楽曲間類似度(音楽構造解析)
- 25pWE-10 前立腺癌の間欠的ホルモン療法における細胞間競争効果の影響について(生物・生態系,領域11,統計力学,物性基礎論,応用数学,力学,流体物理)
- 非線形多値関数を用いた複素連想記憶モデル
- MP-533 前立腺癌の間欠的ホルモン療法の数理モデルによる解析(一般演題ポスター,第94回日本泌尿器科学会総会)
- 遺伝子スイッチモデルに見られる分岐現象
- 2次元H-R神経細胞モデルにおけるType-IおよびII特性とその外力応答
- 電気シナプスと抑制性シナプスによって結合される変形BVPニューロンモデルにみられる同期現象について
- 東京大学生産技術研究所最先端数理モデル連携研究センター(ラボラトリーズ)
- 神力の回路と稲葉の回路の集積回路化(一般,制御システムとダイナミックス)
- しきい値処理により結合されたカオス力学系のパルス変調方式CMOS回路実現
- スケール付きβ写像に基づくA/D変換器の離散時間積分器による実現法(一般)
- スケール付きβ写像に基づくA/D変換器の離散時間積分器による実現法(一般)
- 南雲・佐藤モデルの二個結合系における分岐と特性(ポスターセッション)
- 南雲・佐藤モデルの二個結合系における分岐と特性(ポスターセッション)
- 遺伝子トグルスイッチによる並列論理ゲート
- 微小周期外乱下における二対の安定および不安定なあひる解の形状の酷似について(一般)
- 微小周期外乱下における二対の安定および不安定なあひる解の形状の酷似について(一般)
- 6次元ヒステリシス発振器のリアプノフ解析
- 数理的手法によるシリコンニューロン回路の設計
- 研究解説「MOSFETを用いたニューロンデンシカイロモデル」
- 結合Izhikevichニューロンにおける分岐現象(一般)
- 結合Izhikevichニューロンにおける分岐現象(一般)
- 条件づけ味覚嫌悪反応における単一神経細胞活動の解析(機械学習によるバイオデータマイニング)
- 条件づけ味覚嫌悪反応における単一神経細胞活動の解析(機械学習によるバイオデータマインニング)
- 断続特性をもつ系におけるdelayed feedback controlの検討(ポスターセッション)
- 神経場方程式の孤立局在興奮の解析法について
- メキシカンハット型結合をもつSynfire Chainの理論(バイオサイバネティックス,ニューロコンピューティング)
- 地域風況の予測技術と風力発電(予測技術の信頼性)
- カオス時系列解析とその応用
- 同方向性リカレンスプロットによる決定論性解析
- 断続特性をもつ系におけるdelayed feedback controlの検討(ポスターセッション)
- グラムシュミット直交化法を用いた決定論的予測手法に基づく翌日最大電力予測