適応型模倣による複数個体の強化学習
スポンサーリンク
概要
- 論文の詳細を見る
Reinforcement learning is a framework in which an autonomous agent optimizes its bahavior by progressively improving its performance based on given rewards from the environment. Although several fruitful achievement has been made for the purpose of single-agent-adaptation by this framework, they are not applicable for multiple agents. To learn cooperatively, a new idea of reinforcement learning for multiple agents is needed. This paper describes a new method called Cooperative Reinforcement Learning with Spontaneous Mimetism where multiple agents in the environment learn cooperatively. First, we discuss two major problems of mimetism; when and whom to imitate. Next we compare Simple Mimetism where an agent always imitates on finding another agent in its neighborhood with simple reinforcement learning. To take advantages of both methods, we propose Adaptive Mimetism that adapts learning mode with balancing reinforcement learning and mimetism probabilistically by adjusting mimetism rate according to the situation. Finally, we show the merits of our method by the results of the simulation on the transportation problem in which several robots transport loads in the factory.
- 社団法人人工知能学会の論文
- 1997-03-01
著者
関連論文
- エージェント-環境間相互作用 : 強化学習の立場からの再考
- 多様な姿勢を有する入力顔画像からの個人識別
- AIもズルや言い訳に熟達すべきか?(編集委員2007年の抱負)
- 超臨場感ビジュアライゼーションシステム(未来開拓谷内田プロジェクト-人間情報の可視化とインタラクション支援)
- 顔の軸対称性を考慮した顔輪郭の自動抽出
- 色彩画像からの顔の発見と顔部品の同定
- 大局視と局所視の統合による移動ロボットのための複合視覚センサMISSの提案
- 共起グラフを用いたキーワード抽出
- 共起グラフを用いたキーワード抽出
- 文脈空間を用いた知識ナビゲーション
- 時系列観測データからの新仮説創発の支援
- octreeとポテンシャル場を用いた三次元環境での経路探索
- LC学習 : モデルに基づく段階的平均報酬強化学習手法
- LC学習:モデルに基づく段階的平均報酬強化学習手法
- 全方位視覚センサCOPISを用いた環境マップ生成 - 実環境適用のための処理改善 -
- 経路と交差点の観測による環境地図の作成
- Undiscounted Prioritized Sweeping:最適政策の優先順位付け強化学習の効率化手法
- RAE-PIA:複数報酬環境下における最適政策の効率的強化学習
- 2000-ICS-121-14 強化信号のコミュニケーションに基づくマルチエージェント強化学習
- OFS2000-29 / AI2000-31 強化信号のコミュニケーションに基づくマルチエージェント強化学習
- OFS2000-29 / AI2000-31 強化信号のコミュニケーションに基づくマルチエージェント強化学習
- RAE-PIA : 報酬獲得効率を最大化する政策の強化学習
- RAE-PIA:報酬獲得効率を最大化する政策の強化学習
- 多戦略学習手法MS-RL : 環境変動下におけるロバストな学習エージェントの実現
- 多数カメラによる人物位置・姿勢推定
- 多数カメラによる人物位置・姿勢推定
- 未来開拓谷内田プロジェクト : インタラクションによる感性創発世界の構築(未来開拓谷内田プロジェクト-人間情報の可視化とインタラクション支援)
- 未来開拓谷内田プロジェクト : インタラクションによる感性創発世界の構築
- ヒューマノイドの為の目標生成
- 複数移動ロボットにより観測された環境マップの統合
- 遺伝的アルゴリズムによる歩行動作のアニメーション
- 人間と擬人化エージェントによるマインドマッピングの相互適応(IDEA: 適応のためのインタラクション設計)
- インタラクティブシステム構築のための動画像からの実時間ジェスチャ認識手法 : 仮想指揮システムへの応用
- インタラクティブシステム構築のための実時間ジェスチャ認識の一手法
- 移動視における対応付けと3次元情報の獲得
- 人間とペットロボットの相互適応 : AIBOをしつける
- インダストリアル・アイ : ロボットの目(1部 一般)
- KL展開と隠れマルコフモデルによるジェスチャ認識
- 全方位観測情報の対称性評価による移動ロボットの経路誘導
- ファジイパターン照合を用いた色彩画像からの顔検出システム
- 能動的カメラによる顔観察
- Self-Rewarded RAE:学習の合理性と高速性とを両立させた経験強化型学習法
- Self-Rewarded RAE : 学習の合理性と高速性とを両立させた経験強化型学習法
- 視覚センサにより得られた3次元線分情報からの面情報の獲得
- 表情認識とその程度推定
- 顔表情程度の推定
- 顔認識のためのウェーブレット特徴量の評価(一般セッション(2), ユビキタスメディアの将来展望)
- 顔認識のためのウェーブレット特徴量の評価(一般セッション(2), ユビキタスメディアの将来展望)
- 人間とペットロボットの相互適応--AIBOをしつける (小特集 「ヒューマンエージェントインタラクション」および一般)
- 温度変化に対する画像印象度の解析とモデル化
- 行為の同型性に基づく強化学習法
- 視線行動の可視化による着眼スキル伝達支援
- 視線情報の可視化・共有による感性インタラクション支援(未来開拓谷内田プロジェクト-人間情報の可視化とインタラクション支援)
- インタラクション支援のための視線可視化方法の検討 : 発想支援システム"ミラーエージェント"の構築に向けて
- 情報量を考慮した関係記述の類似度に基づく家の初期構造概念の学習
- 背景知識に基づく家の構造概念の学習
- 関係の類似度に基づく家の構造概念の学習
- 大局視と局所視の統合による複合センシングシステムの構築
- 全方位オプティカルフローからの移動ロボットの揺れ推定
- 人間-エージェント間での読心ゲームにおける言い当て行動系列に依存したユーザーモデルの推定
- 人間-エージェント間での読心ゲームにおける言い当て行動系列に依存したユーザモデルの推定
- 移動ロボットの観測行動計画システム
- 適応型模倣による複数個体の強化学習
- 模倣と自己主張に基づく行動の学習 : 集団における協調行動の生成
- 全方位視覚センサ COPIS を搭載した移動ロボットのための環境マップの生成と移動自由空間の推定
- 立体視で得られた物体の3次元定量情報からの構造概念の学習
- 実例と教示による物体形状の概念学習 : 定量3D情報から定性値表現へ
- 抽象化副報酬の自動生成による実ロボット強化学習の高速化
- 経験型強化学習における仮想個体から実ロボットへの学習行動の伝播
- 人間と擬人化エージェントによる感情マッピングの相互学習 (特集 HAI(Human-Agent Interaction)および一般発表) -- (HAIセッション1 感情と表情)
- 逐次的学習法における時系列学習データ分布の変動点推定
- 種を単位とした適応度評価による利他的コミュニケーションの進化的獲得
- 種を単位とした適応度評価による利他的コミュニケーションの進化的獲得
- 複合視覚センサを用いた自己位置並びに環境マップ推定
- ぼけ情報を用いた定性的距離情報の獲得
- 複数移動ロボットの協調観測による移動物体の運動推定
- 配色支援システムにおける好みの獲得と迷いの解消
- 種を単位とした適応度評価による個体間の協調行動の進化
- 複数移動ロボットにより観測された環境地図の統合
- The measurement of 3-D coordinates for many line-like objects.
- 心理誘導型カラーコーディネート支援システム
- 強化学習における時系列学習データ分布の変動点推定
- 視覚からのモデルと概念の学習
- 三眼視による三次元情報の計測
- 中学生の保護者を取り込む体験入学の実施ー名作ゲーム開発疑似体験を通してー
- Squeakを用いた小中学生のためのプログラミング講座ー奈良高専情報工学科公開講座ー