報酬と行動決定を伴う時系列データの強化学習を用いたオフライン分析(一般,複雑系とニューロコンピューティング)

概要

論文の詳細を見る
強化学習は環境中で動作するエージェントのオンライン行動最適化学習のモデルとして用いられることが多いが,マルコフ決定過程や部分観測マルコフ決定過程の上の状態・行動価値評価アルゴリズムや方策最適化アルゴリズムを用いて,あらかじめ収集された報酬つき時系列データをオフラインで分析し,行動や状態の価値評価,方策の改善,将来予測などを行う研究も行われてきている.本稿では,これまでの研究を紹介するとともに,循環器内科における診療記録データへの適用可能性を検討した結果について述べる.
2012-01-19

著者

神嶌敏弘
産業技術総合研究所
麻生英樹
産業技術総合研究所
興梠貴英
東京大学医学部附属病院循環器内科
麻生英樹
(独)産業技術総合研究所
麻生英樹
産業技術総合研情報技術研究部門
赤穂昭太郎
産業技術総合研究所
麻生英樹
独立行政法人産業技術総合研究所
赤穂昭太郎
独立行政法人産業技術総合研究所脳神経情報研究部門
城真範
独立行政法人産業技術総合研究所ヒューマンライフテクノロジー研究部門
神嶌敏弘
独立行政法人産業技術総合研究所
興梠貴英
東京大学医学部附属病院
城真範
独立行政法人産業技術総合研究所
赤穂昭太郎
独立行政法人産業技術総合研究所

関連論文

データマイニングと統計数理研究会(SIG-DMSM)(研究会総覧)
人工知能学会RSS/iCalendarファイルの利用法
転移学習
ヒューマノイドロボットにおける音響シミュレーションの検討
線形計算の数理, 杉原正顯,室田一雄(著), 岩波書店, 2009-08, A5判, 定価(本体6,000円+税)
協調フィルタリングと属性ベースフィルタリングの統合について(ベイズ情報処理,ベイズ情報処理及び一般)
推薦システム-情報過多時代をのりきる(情報のフィルタリング)
パーティクルフィルタを用いたベイズ推論のユーザインタフェースへの応用(一般, 脳・ヒューマンモデリング, 一般)
嗜好のモデル化におけるモデル適応について(ヒトの行動とモデル,神経ダイナミクス,一般)
ベイジアンネットによる映画コンテンツ推薦方式の検討(ベイジアンネット1 : ポスターセッション)
1.仮想状況と現実状況における食事メニュー嗜好の差異について(一般セッション認知・情報)
学習するジャムセッションシステム : 演奏者固有のフレーズの獲得(セッション5 : 自動演奏システム)
発音時刻の楽譜上の位置を確率モデルにより推定するクォンタイズ手法(音楽情報科学)
学習に基づくクォンタイズ : 発音時刻の楽譜上の位置の推定
2.移動端末におけるユーザの状況を考慮した嗜好抽出技術(実世界上のユーザ行動に着目した嗜好抽出・情報推薦, 利用者の好みをとらえ活かす-嗜好抽出技術の最前線-)
2.協調フィルタリングの課題 : プライバシー,サクラ攻撃,評価値のゆらぎ(嗜好抽出・情報推薦の基礎理論, 利用者の好みをとらえ活かす-嗜好抽出技術の最前線-)
データマイニングと統計数理研究会(イベントだより)
変分ベイズ法を用いたモデル構造探索に基づく抽象的単語の学習(人工知能,認知科学)
ベイジアンモデル選択に基づく知覚特徴量を用いた抽象的語意の学習(テーマ関連セッション1)
ベイジアンモデル選択に基づく知覚特徴量を用いた抽象的語意の学習
データマイニングと統計数理研究会(SIG-DMSM)
ベイジアンネットワークモデルの構造学習におけるMDL規準の改善提案
ベイジアンネットによる映画コンテンツ推薦方式の検討(好みの計量)
映画コンテンツ推薦のためのユーザ嗜好性モデルの実験的評価
視聴覚センサ情報の統合による音源追跡
多人数インタラクションの工学的応用 : 認識・理解システムの構築とその利用について(ワークショップ,言語・非言語コミュニケーション及び一般)
ヒューマノイドロボットHRP-2における音響情報と画像情報を統合したリアルタイム音声インタフェース(システム論文特集号)
パーティクルフィルタを用いた移動音源の追跡技術
高次統計量の分布モデルを用いた音声・環境音識別法の検討(音声・音響処理)
高次統計量の分布モデルを用いた音声・環境音識別法の検討(音声・音響処理)
実環境における発話区間検出のための音響情報と画像情報の統合(音響と音声処理,音声強調,ロバスト音声認識)
実環境における発話区間検出のための音響情報と画像情報の統合(音響と音声処理,音声強調,ロバスト音声認識)
転移学習に転移中(編集委員今年の抱負2009:経糸から横糸まで)
「ニューロラルな視点からの挑戦」へのコメントと回答
ベイジアンモデル選択に基づく知覚特徴量を用いた抽象的語意の学習(テーマセッション(1),CVのためのパターン認識・学習理論の新展開)
D-9-8 携帯電話上での行動予測モデルに関する検討(D-9.ライフインテリジェンスとオフィス情報システム,一般セッション)
視覚情報から言語表現を生成するシステムの試作
少し離れたところから
知的であるとはどういうことか?
インタラクションを通じた学習
カスタム価格設定推薦システム : 簡単な実装と予備実験(一般講演(モデルとデータの統合),機械学習とその応用)
階層ベイズモデルによる協調フィルタリング(一般講演(モデルとデータの統合),機械学習とその応用)
映画コンテンツ推薦のためのユーザ嗜好性モデルの実験的評価
想定状況と現実状況における食事メニュー嗜好の差異の分析(一般,生物模倣情報処理,機械学習,一般)
クラスタ例からの学習 : クラスタ属性の利用
クラスタ例からの学習 : 分類対象集合全体の属性の利用
クラスタ例からの学習--クラスタに関する属性の利用
クラスタ例からの学習--分類対象集合の全体に関わる特徴の利用
1.座談会ニューロコンピューティング研究から生まれたもの(ニューロコンピューティング研究の歴史とその将来)
おもてなしシステム(編集委員今年の抱負2011)
情報過多時代の情報利用 : 推薦システムと強調フィルタリング(Web2.0時代のビジネスモデル-検索エンジンと利用技術-)
参加システムの嗜好パターンが異なる場合の集団協調フィルタリング (「プリファレンスモデリングと推薦システム」及び一般)
推薦システムのアルゴリズム(3)
推薦システムのアルゴリズム(2)
推薦システムのアルゴリズム(1)
シリーズ特集研究のツールボックス第6回
特集「研究のツールボックス」(第5回)にあたって(研究のツールボックス第5回)
まだまだあるクラスタリングの研究(編集委員2007年の抱負)
シリーズ特集「研究のツールボックス」第4回にあたって(研究のツールボックス〔第4回〕)
シリーズ特集研究のツールボックス第3回
機械学習の適用範囲の拡張(ようこそ人工知能の世界へ : 編集委員今年の初夢)
マルチモーダル対話記述言語MILES
順序中の欠損対象の補完 (特集:「アクティブマイニング」および一般) -- (セッション4 クラスタリング,応用)
全体討論(第3部:学会の在り方を考える,人工知能学会25周年特集「四半世紀を越えて」)
学術分野のWebサービスと成果評価の現状(第3部:学会の在り方を考える,人工知能学会25周年特集「四半世紀を越えて」)
なんとなく協調フィルタリング--順序応答に基づく推薦 (特集「医療及び化学情報マイニング」および一般)
D-4-1 順序列からの学習 : 潜在変数モデルによるランク付け
特集「知識の転移」にあたって
報酬と行動決定を伴う時系列データの強化学習を用いたオフライン分析(一般,複雑系とニューロコンピューティング)
公正・差別配慮型マイニングのサーベイ (情報論的学習理論と機械学習)
公正・差別配慮型マイニングのサーベイ (パターン認識・メディア理解)
機械学習の適用範囲の拡張
シリーズ特集研究のツールボックス第2回(研究のツールボックス(2))
シリーズ特集研究のツールボックス第1回
順序のクラスタリング : 順序平均の最適性について(テーマセッション(2))(データマイニングとパターン認識・メディア理解)
データマイニング分野のクラスタリング手法(2) : 大規模データへの挑戦と次元の呪いの克服
データマイニング分野のクラスタリング手法(1) : クラスタリングを使ってみよう!
クラスタ例からの学習(機械学習)(人工知能分野における博士論文)
愛情の実装方法(映画「A.I.」をめぐって)
人工知能
データマイニングと統計数理研究会
特集「知識の転移」にあたって
機械学習は目的から制約へ(編集委員今年の抱負2013)
公正・差別配慮型マイニングのサーベイ
連載解説「Deep Learning(深層学習)」にあたって(Deep Learning(深層学習)[第1回]
情報中立推薦での中立性項の改良 (情報論的学習理論と機械学習)
キューブリックの「A.I.」が見たかった(映画「A.I.」をめぐって)
公正・差別配慮型マイニングのサーベイ(一般セッション,コンピュータビジョンとパターン認識のための機械学習及び企業ニーズセッション)
フィルタバブルと推薦システム(学生/教養のページ)
逆強化学習による医療臨床データの分析
2項比較データからの順序の学習
順序例からの学習
公正・差別配慮型マイニングのサーベイ(コンピュータビジョンとパターン認識のための機械学習及び企業ニーズセッション)
逆強化学習による医療臨床データの分析
情報中立推薦での中立性項の改良(機械学習)
公正配慮型分類器の公正性に関する分析
情報中立推薦システムの高速化
属性付き中心順序の推定 : 手法のサーベイと比較実験
順序のクラスタリング
順序例からの学習のための線形モデルによるアプローチ

報酬と行動決定を伴う時系列データの強化学習を用いたオフライン分析(一般,複雑系とニューロコンピューティング)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク