非マルコフ決定過程における強化学習 : 特徴的適正度の統計的性質(モデル/理論,<特集>ソフトウェアエージェントとその応用論文)
スポンサーリンク
概要
- 論文の詳細を見る
強化学習法は,TD学習やQ学習に代表される価値ベースの強化学習法と,WilliamsのREINFORCEを代表とする方策こう配法の二つに分類される.これら二つの強化学習法を統合するためにBairdとMooreはVAPSアルゴリズムを提案した.彼らの学習別の基礎となっている定理は,非マルコフ決定過程へも適用できる.そこで,本論文ではこの定理に着目し,まず,この定理の一般的で簡潔な証明を与えた.次に,この定理に現れる特徴的適正度という量に関する統計的な性質を導出した.これらの性質は一般的な非マルコフ決定過程において成立し,これらの性質を用いると,マルコフ決定過程や部分観測マルコフ決定過程において成立する割引報酬の期待値のこう配に関する諸定理を簡単に導出できる.
- 2007-09-01
著者
関連論文
- 非マルコフ決定過程における強化学習 : 特徴的適正度の統計的性質(モデル/理論,ソフトウェアエージェントとその応用論文)
- 2S-4 ネットワーク分析にもとづく複数形式文書分類手法の提案(自然言語処理一般,学生セッション,人工知能と認知科学)
- 非マルコフ決定過程における方策勾配法の一考察 : カーリングの事例
- Ridgelet-Hough変換を用いた足跡画像符号化に関する考察 : 符号化方法の提案および従来法との特徴比較(プロセッサ, DSP, 画像処理技術及び一般)
- Ridgelet-Hough変換を用いた足跡画像符号化に関する考察--符号化方法の提案および従来法との特徴比較
- 医薬品添付文書情報における使用時の注意に関する記述の解析 (安全性)
- 医薬品・医療機器等の回収に関するクラス分類の提案
- 医薬品添付文書情報における使用時の注意に関する記述の解析
- A-18-6 処方せんの記載方法に関する分析 : 第一報(A-18.安全性,一般セッション)
- 注射薬ラベル等のバーコード表示に関するアンケートの解析
- A-18-3 テキストマイニング手法を用いた医療機器ヒヤリハット事例の解析(A-18. 安全性,一般セッション)
- 2M-5 記憶ベース推論におけるk最近傍探索効率化手法の提案(進化的計算とデータマイニング,学生セッション,ソフトウェア科学・工学)
- A-18-6 注射薬ラベル等のバーコード表示に関するアンケートの解析(II)(A-18. 安全性,一般セッション)
- 医薬品使用の安全性に関するアンケートの解析(信頼性国際規格,安全性,信頼性一般)
- 硝酸イソソルビド経皮吸収型製剤で試みた使用の安全対策「薬効マーク」に対する医療従事者と患者の評価
- A-19-3 医薬品使用の安全性に関するアンケートの解析(2)(A-19. 福祉情報工学, 基礎・境界)
- A-18-3 文字形状に着目した医薬品名称類似指標の提案(第2報)(A-18.安全性,一般セッション)
- 1D-6 方策勾配法を用いたサッカーエージェントの学習 : パス・レシーブ(ゲーム・ロボカップ,一般セッション,人工知能と認知科学)
- 2P1-S-022 方策勾配法を用いたフリーキック時の行動学習(ロボカップ2,生活を支援するロボメカ技術のメガインテグレーション)
- 6P-2 データマイニングによる株価予測システムの開発(数理モデルの応用,学生セッション,ソフトウェア科学・工学)
- A-18-6 処方入力画面に表示される医薬品名標準化の検討(A-18.安全性,一般セッション)
- A-18-5 医薬品添付文書情報における「適用上の注意」の記述の解析(A-18.安全性,一般セッション)
- A-18-4 添付文書情報における表構造からの頻出内容の抽出(第二報)(A-18.安全性,一般セッション)
- A-18-2 医薬品外箱データベースの構築と解析(A-18.安全性,一般セッション)
- PTPシートの外観類似に関するアンケートの解析
- PTPシートの外観類似に関するアンケートの解析(一般セッション,コミュニケーション支援,共生コミュニケーション及び一般)
- PTPシートの外観類似に関するアンケートの解析(一般セッション,コミュニケーション支援,共生コミュニケーション及び一般)
- PTPシートの外観類似に関するアンケートの解析(一般セッション,コミュニケーション支援,共生コミュニケーション及び一般)
- Ridgelet-Hough変換を用いた足跡画像符号化に関する考察 : 符号化方法の提案および従来法との特徴比較(プロセッサ, DSP, 画像処理技術及び一般)
- Ridgelet-Hough変換を用いた足跡画像符号化に関する考察 : 符号化方法の提案および従来法との特徴比較(プロセッサ, DSP, 画像処理技術及び一般)
- 医薬品使用の安全性に関するアンケートの解析(信頼性国際規格,安全性,信頼性一般)
- 医薬品使用の安全性に関するアンケートの解析--テキストマイニング手法の適用
- 2N-1 スペクトラルクラスタリングにおけるクラスタ数決定手法の提案(グラフやネットワークに関するアルゴリズム,学生セッション,ソフトウェア科学・工学,情報処理学会創立50周年記念)
- 1X-7 係り受け情報に基づくゼロ代名詞推測手法の検討(意味・談話解析,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 1A1-N-028 方策勾配法を用いた運動方程式中のパラメータ学習 : 2ストーン系のカーリングゲーム(マルチエージェントロボットシステム,生活を支援するロボメカ技術のメガインテグレーション)
- Ridgelet-Hough変換を用いた足跡画像符号化に関する考察 : 符号化方法の提案および従来法との特徴比較(プロセッサ, DSP, 画像処理技術及び一般)
- 離散最適化問題としての自律移動型ロボットの走行誘導
- A-18-4 調剤棚の薬剤名表示方法の検討(A-18. 安全性,一般セッション)
- 方策こう配法を用いた行動学習 : 環境のダイナミクスと行動知識との分離
- マルチエージェント系における行動学習への方策こう配法の適用 : 追跡問題(分散協調とエージェント)
- マルチエージェント系における方策勾配法 : 追跡問題
- マルチエージェント系における方策勾配法 : 追跡問題
- 強化学習を用いた自律移動型ロボットの行動計画法の提案
- A-18-3 医薬品外箱データベースの構築と解析(第3報) : 医薬品外箱の開封性とサイズの関係(A-18.安全性,一般セッション)
- A-18-2 医薬品添付文書を元にしたデータベースにおける患者に関する禁忌情報の解析(A-18.安全性,一般セッション)
- A-18-1 薬効分類改善のための医薬品情報の解析(A-18.安全性,一般セッション)
- A-18-5 医薬品添付文書情報からの有効成分名の抽出(第2報)(A-18.安全性,一般セッション)
- A-18-5 医薬品添付文書情報からの有効成分名の抽出(A-18.安全性,一般セッション)
- 1X-2 ファジィクラスタリングを用いた分野別語義識別方法の提案(意味・談話解析,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 6S-7 テキストの類似性を利用したXML文書統合手法の検討(XML・グラフデータベース,学生セッション,データベースとメディア,情報処理学会創立50周年記念)
- 5S-6 意外な検索キーワードを推薦する手法の提案(情報推薦(2),学生セッション,データベースとメディア,情報処理学会創立50周年記念)
- 6R-1 トピックマップデータベースへの問い合わせ最適化手法の検討(データベース技術,学生セッション,データベースとメディア,情報処理学会創立50周年記念)
- 5Q-9 トピックマップデータベースにおける権限管理機能の実装(情報アクセス技術,学生セッション,データベースとメディア,情報処理学会創立50周年記念)
- 5N-5 偏りのあるデータに適用可能な決定木学習アルゴリズムの検討(アルゴリズム,学生セッション,ソフトウェア科学・工学,情報処理学会創立50周年記念)
- 2N-5 動的変化を伴う複雑ネットワークに適したコミュニティ発見手法の提案(グラフやネットワークに関するアルゴリズム,学生セッション,ソフトウェア科学・工学,情報処理学会創立50周年記念)
- 2N-4 複雑ネットワークに適用するファジィクラスタリング手法の検討(グラフやネットワークに関するアルゴリズム,学生セッション,ソフトウェア科学・工学,情報処理学会創立50周年記念)
- A-18-6 医薬品・医療機器等の回収に関するクラス分類の提案(第2報)(A-18.安全性,一般セッション)
- 名称の類似性に着目した薬剤名対応テストの自動生成手法の提案 (安全性)
- D-4-14 BLOGのトラックバック構造における話題の可視化(D-4.データ工学,一般講演)
- 3S-2 関連語に基づく文の関係を用いたコラムの自動要約(情報抽出,学生セッション,人工知能と認知科学)
- A-18-7 アンプルを対象とした外観類似医薬品検索手法の提案(第2報)(A-18.安全性,一般セッション)
- A-18-8 添付文書情報における用法・用量記述の解析(第二報)(A-18.安全性,一般セッション)
- A-18-10 添付文書情報における用法・用量記述の解析(第3報)(A-18.安全性,一般セッション)
- A-18-5 医薬品の使用の安全性に関する医薬品情報の調査(A-18. 安全性,一般セッション)
- 5S-7 ベイジアンネットワークのモデル構築手法の検討(認知・推論・探索,学生セッション,人工知能と認知科学)
- 5P-6 ベイジアンネットワークのモデル構築手法の検討(進化的計算とバイオインフォマティクス,学生セッション,ソフトウェア科学・工学)
- 2R-2 トピックマップ構造におけるスコープ自動抽出方法の提案(マルチエージェント(2),学生セッション,人工知能と認知科学)
- 1S-2 P2Pデータベースにおけるロックノードを用いた一貫性保証機構の開発(P2Pデータ処理,学生セッション,データベースとメディア)
- 6P-3 拡張されたトピックマップデータベースの構築(情報検索(2),学生セッション,データベースとメディア)
- 方策勾配法における目的関数の合成と追跡問題への適用 (テーマ:知能・適応と社会,ネットワーク) -- (マルチエージェントシステム)
- F_004 方策こう配法を用いた行動学習 : 方策中での状態遷移確率の表現(F分野:人工知能・ゲーム)
- 入力パターンベクトルの分布に基づくクラス分類問題の分割法
- 方策勾配法を用いた自律移動型ロボットの行動計画法
- ノードコストを考慮した最短経路探索法とデータ構造
- ノードコストを考慮した最短経路探索法とデータ構造
- 離散最適化問題としての自律移動型ロボットの経路計画
- 1P-4 WebAPIから得られるXML文書統合手法の検討(XMLと応用,学生セッション,データベースとメディア)
- D-1-9 ファジィクラスタリングを用いた動的類義語分類手法の提案(D-1.コンピュテーション,一般セッション)
- D-1-7 複雑ネットワークにおけるファジィクラスタリングの分散処理手法の提案(D-1.コンピュテーション,一般セッション)
- D-1-8 構造変化を伴う複雑ネットワークに対する効率的なコミュニティ分割手法の提案(II)(D-1.コンピュテーション,一般セッション)
- A-18-7 名称の類似性に着目した薬剤名対応テストの自動生成手法の提案(A-18.安全性,一般セッション)
- A-18-6 見える範囲を考慮したアンプルラベル類似指標の提案 : 第2報(A-18.安全性,一般セッション)
- A-18-5 文字形状に着目した類似医薬品名称算出手法の提案 : 第2報(A-18.安全性,一般セッション)
- A-18-4 米国FDAにおける医療機器回収データの分析 : 第2報(A-18.安全性,一般セッション)
- A-18-3 医薬品添付文書を元にしたデータベースにおける禁忌情報の解析(III)(A-18.安全性,一般セッション)
- A-18-2 ヒューマンエラーを防止するための薬剤の表示方法の検討(第18報) : PTPシートの外観類似性評価手法の提案(A-18.安全性,一般セッション)
- A-18-1 薬効分類改善のための医薬品情報の解析 : 第二報(A-18.安全性,一般セッション)
- 状態の複数の抽象化による方策こう配法の高速化--トンネル状の障害物が存在する追跡問題への適用
- D-4-6 トピックマップデータベースへの問い合わせ最適化手法の検討(第2報)(D-4.データ工学,一般セッション)
- 6U-5 類似名詞のクラスタリングに基づく照応解析手法の提案(自然言語処理,学生セッション,人工知能と認知科学)
- 状態の複数の抽象化による方策こう配法の高速化 : トンネル状の障害物が存在する追跡問題への適用(情報ネットワーク)
- 名称の類似性に着目した薬剤名対応テストの自動生成手法の提案
- 6S-4 大規模ネットワークに適したクラスタリングシステムの開発(遺伝的アルゴリズム・人口生命,学生セッション,人工知能と認知科学)
- 5R-1 Web2.0におけるマッシュアップ標準化手法の検討(Web応用,学生セッション,データベースとメディア)
- 4R-1 タグの共起関係を利用した類似ソーシャルブックマーク抽出システムの開発(Webマイニング,学生セッション,データベースとメディア)
- 医薬品名称類似度指標の検討(信頼性国際規格,安全性,信頼性一般)
- 動径基底関数を用いたクラス分類問題の分割法 : モジュール型ニューラルネットワークへの適用
- マルチエージェントシステムにおける行動制御 : PSOにおける重み係数の強化学習(情報ネットワーク)
- ファジィ制御ルールにより表現された方策を持つ方策勾配法の導出
- 方策勾配法による局面評価関数とシミュレーション方策の学習