経験に固執しない Profit Sharing 法
スポンサーリンク
概要
- 論文の詳細を見る
Profit Sharing is one of the reinforcement learning methods. An agent, as a learner, selects an action with a state-action value and receives rewards when it reaches a goal state. Then it distributes receiving rewards to state-action values. This paper discusses how to set the initial value of a state-action value. A distribution function ƒ(x) is called as the reinforcement function. On Profit Sharing, an agent learns a policy by distributing rewards with the reinforcement function. On Markov Decision Processes (MDPs), the reinforcement function ƒ(x) = 1/Lx is useful, and on Partially Observable Markov Decision Processes (POMDPs), ƒ(x) = 1/Lw is useful, where L is the sufficient number of rules at each state, and W is the length of an episode. If episodes are always long, the value of the reinforcement function is little. So the differences of rule values become little, and the agent learns little by using the roulette selection as an action selection. This problem is called as Learning Speed Problem. If the value of the reinforcement function for an action is very higher than its state-action value, an agent will not select other action. There is a problem when its action is not a optimal action. This problem is called as Past Experiences Problem. This paper shows that both Learning Speed Problem and Past Experiences Problem are caused by the bad setting between the initial values of a state-action values and the function values of a reinforcement function. We propose how to set the initial values of a state-action values at each state. The experiment shows that an agent can learn correctly even if the length of episode is large. And shows the effectiveness on both MDPs and POMDPs. Our proposed method focuses on the initialization of state-action values and does not limit reinforcement functions. So it can apply to any reinforcement function.
- 社団法人 人工知能学会の論文
- 2006-11-01
著者
-
辰巳 昭治
大阪市立大学
-
辰巳 昭治
大阪市立大学大学院工学研究科電子情報系専攻
-
辰巳 昭治
大阪市立大学 大学院 工学研究科
-
植村 渉
大阪市立大学大学院工学研究科知識情報工学分野
-
上野 敦志
大阪市立大学大学院工学研究科電子情報系専攻
-
上野 敦志
大阪市立大学大学院工学研究科
-
植村 渉
大阪市立大学大学院工学研究科知識情報処理工学研究室
-
上野 敦志
大阪市立大学 大学院 工学研究科
関連論文
- Web上の人物理解のための履歴書作成
- Web 上の同姓同名人物識別のための職業関連情報の抽出
- D-8-12 動的最適解探索向き部分個体群の動的形成手法を持つPSO(D-8. 人工知能と知識処理,一般セッション)
- 多重スライス画像によるムラの定量化
- 人間の視覚感覚に基づいたムラ検出手法
- 干渉光を用いた薄膜のムラ検出手法
- 人間の感覚に基づいたムラ検出手法
- 大阪市立大学携帯OPACの独自開発とその評価
- マルチエージェントによるワークフロー制御とヘルプデスクへの応用(次世代移動通信ネットワークとその応用)
- POMDPs環境のためのエピソード強化型強化学習法(人工知能)
- POMDPs環境下での経験強化型強化学習法(「セマンティックWeb」特集及び一般)
- 発見ルールフィルタリングへのマクロビューアプローチ(9月14日)(「アクティブマイニング」及び一般)
- 発見ルールフィルタリングへのマクロビューアプローチ(「アクティブマイニング」及び一般)
- 競争型情報推薦システムとその合理的推薦手法(ソフトウェアエージェントとその応用論文)
- MEDLINE情報検索に基づく発見ルールフィルタリングシステム
- MEDLINE情報検索に基づく発見ルールフィルタリングシステム(「アクティブマイニング」及び一般 : 文部科学省科学研究費特定領域研究「情報洪水時代におけるアクティブマイニングの実現」公開シンポジウム)
- D-10-5 アドホックネットワークにおける自己安定グループコミュニケーションアルゴリズムに関する一考察
- WWW情報統合のためのマルチキャラクタインタフェースとその評価(マルチエージェント)
- 動的迷路における観測と経路探索手法
- D-8-14 強化学習Profit Sharningへの学習確定度の導入
- D-5-10 主体別動作イベントに基づく物語文の要約抽出法
- 分割可能バス付きプロセッサアレー上の全点対間最短経路問題
- 動的迷路における観測と経路探索手法 (テーマ:「アクティブマイニング」および一般)
- D-10-7 強化学習を用いた2Dメッシュ結合型マルチコンピュータでの耐故障性を持つ適応経路設定
- 動的情報メディエータのための知的情報収集手法
- D-6-11 スイッチ数を削減した分割可能バスによる優先解消バスの模倣
- 競争型情報推薦システムRecommendation Battlersとその挙動 (人工知能基礎論研究会(第46回) 知識ベースシステム研究会(第54回) 合同研究会 テーマ:「アクティブマイニング」および一般)
- 競争型情報推薦システムRecommendation Battlersとその挙動 (人工知能基礎論研究会(第46回) 知識ベースシステム研究会(第54回) 合同研究会 テーマ:「アクティブマイニング」および一般)
- D-6-8 分割可能バス付きアレイ上の高速フーリエ変換
- MetaCommander2 : エージェント指向Webコンテンツ統合環境
- 連想型情報検索システムのゲノムデータベースへの応用とその並列化
- 多状態コミットメント探索とその評価
- 多状態コミットメント実時間A^*アルゴリズムの性能解析
- 多状態コミットメント探索の性能評価
- ヒューリスティック探索へのn-状態コミットメントの導入
- ヒューリスティック探索への n-状態コミットメントの導入
- 強化学習における報酬の分配に関する研究(創発システム,人工知能分野における博士論文)
- Actor-critic法における共分散を考慮した多次元正規分布による政策表現(セッション : 一般(プランニングと意思決定), 「社会システムにおける知能」及び一般)
- Actor-critic 法における共分散を考慮した多次元正規分布による政策表現(一般(プランニングと意思決定), 「社会システムにおける知能」及び一般)
- Actor-critic法における共分散を考慮した多次元正規分布による政策表現
- F-038 POMDPs環境下での知識利用型強化学習法(F.人工知能)
- 離散円形状空間への高精度なモルフォロジー形状分解
- 高精度なモルフォロジー的円形状構造要素の再帰的構成法
- 高精度な円形状構造要素によるモルフォロジー形状分解
- モルフォロジー画像処理に向いた高精度な分解型円形状構造要素の提案
- モルフォロジーフィルタによる線状図形の抽出
- モルフォロジー演算による線図形画像から特定の長さを持つ線図形の抽出
- D-12-96 画像領域ごとのBag-of-Keypointsに基づく物体抽出(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス),一般セッション)
- 同時送信可能な区分バス付きアレイによる分割可能バス付きアレイの模倣
- D-6-5 分割可能バスつきアレイ上のDESCEND/ASCEND型計算
- CTIにおける市場ベースのジョブ割当機構に関する一考察
- CTIにおける市場ベースのジョブ割当機構に関する一考察
- CTIにおける市場ベースのジョブ割当機構に関する一考察
- ネットワーク適合型WWW情報配送システム
- WWW情報統合のための動的アクセスプランニング手法
- モバイルエージェントによる場指向コミュニケーション
- 分割可能バス付きプロセッサアレー上の論理行列積とグラフ問題への応用
- D-6-6 分割可能バスつきアレイ上の全点対間最短経路問題
- WWW情報統合のための協調型アーキテクチャ (テーマ:「インターネットとAI」および一般)
- 3次元分割可能バス付きアレイ上の論理行列積とその応用
- 相関ルール抽出のためのDHPアルゴリズムにおけるハッシュ関数の一検討
- スクリプトに基づくWWW情報統合支援システムとゲノムデータベースへの応用(ソフトウェアエージェントとその応用論文特集)
- WWW情報資源の仮想オブジェクト化と統合を支援するGUIシステムの試作
- 区分バス付きプロセッサアレー上での半群計算
- プロセッサアレイにおけるバスおよびトーラス結合の評価
- 分割可能バス付きアレイにおけるバス競合解消法
- 伝搬遅延を考慮した分割可能バス付きプロセッサアレーの評価
- 分割バス付きアレー上での半群計算に基づく並列アルゴリズム
- 自己相似形結合網を有するマルチプロセッサシステムFIN-1の耐故障性を考慮したウェーハスケール埋込み
- 分散共有メモリを介した異種結合網を有する並列計算機モデル
- D-8-36 複数のランドマークの位置推定に基づく自己位置同定法(D-8. 人工知能と知識処理,一般セッション)
- 経験に固執しない Profit Sharing 法
- B-21-23 通信履歴を用いたアドホックネットワークにおける信頼性向上について(B-21.アドホックネットワーク,一般講演)
- D-8-12 特性の異なる混合部分群を持つParticle Swarm Optimization(D-8.人工知能と知識処理,一般講演)
- D-12-99 サポートベクターマシンの高速化に関する研究(D-12. パターン認識・メディア理解, 情報・システム2)
- Profit Sharing 法における強化関数に関する一考察
- コミュニケーションモデルに基づいたパーソナルロボットのアプリケーション調停機構(人工知能, 認知科学)
- 分散問題解決のための波及型探索法とその評価
- 波及型探索における大局的通信制御手法
- 波及型探索における通信戦略について
- 通信ネットワークにおける分散協調型経路選択
- 分散探索における通信制御
- 自己相似型ネッ トワーク計算機 FIN を用いた遺伝的アルゴリズムによる概念クラスタリングについて
- Actor-critic 法における共分散を考慮した多次元正規分布による政策表現
- L-052 アドホックネットワーク向けマルチキャスト配信率向上プロトコルの提案(L分野:ネットワークコンピューティング)
- 精密な位置合せ不要の濃淡画像比較によるパターン欠陥検査手法(画像処理,画像パターン認識)
- MetaCommander: スクリプトに基づくWWW情報収集システムの試作
- D-4-3 Frequent Patterns and Rules Filtering Method in Integrated analysis of gene expression using FP-Growth.
- マルチエージェント実時間探索における組織化とその評価
- Actor-critic 法における共分散を考慮した多次元正規分布による政策表現
- 色彩のグラデーション分布が画像の感性評価に与える影響に関する考察(感性とメディア及び一般)
- 著者名典拠作成の自動化を目指して
- 複雑環境における意思決定支援マルチエージェントシステム