尤度情報に基づく温度分布を用いた強化学習法
スポンサーリンク
概要
- 論文の詳細を見る
In the existing Reinforcement Learning, it is difficult and time consuming to find appropriate the meta-parameters such as learning rate, eligibility traces and temperature for exploration, in particular on a complicated and large-scale problem, the delayed reward often occurs and causes a difficulty in solving the problem. In this paper, we propose a novel method introducing a temperature distribution for reinforcement learning. In addition to the acquirement of policy based on profit sharing, the temperature is given to each state and is trained by hill-climbing method using likelihood function based on success and failure of the task. The proposed method can reduce the parameter setting according to the given problems. We showed the performance on the grid world problem and the control of Acrobot.
- 社団法人 人工知能学会の論文
- 2005-11-01
著者
-
鈴木 健嗣
筑波大学大学院システム情報工学研究科
-
橋本 周司
早稲田大学理工学術院 先進理工学研究科
-
ハルトノ ピトヨ
公立はこだて未来大学
-
ハルトノ ピトヨ
公立はこだて未来大学 情報アーキテクチャ学科
-
小堀 訓成
早稲田大学大学院 理工学研究科 物理学及応用物理学専攻
-
鈴木 健嗣
早稲田大学理工学部応用物理学科
-
橋本 周司
早稲田大学理工学研究科応用物理科
-
橋本 周司
早稲田大学
関連論文
- PD-03 生体信号の音響変換に基づくバイオフィードバックへの応用(一般発表(ポスター&デモ),第37回日本バイオフィードバック学術総会抄録集)
- The Japanese Society of Hypertension Committee for Guidelines for the Management of Hypertension
- The association between masked hypertension and waist circumference as an obesity-related anthropometric index for metabolic syndrome : the Ohasama study
- A-15-21 積荷をインターフェースとしたクローラ・車輪型搬送ロボットDai-shaの開発(A-15.ヒューマン情報処理,一般セッション)
- 次回大会長挨拶
- Steroid resistance in prolonged type I membranoproliferative glomerulonephritis and accelerated disease remission after steroid withdrawal
- 1ZA-8 仮想化現実を利用した移動ロボットの適応的遠隔操作(VRシステム,学生セッション,インタフェース)
- 1ZA-1 ディジタルミラーの開発(VRシステム,学生セッション,インタフェース)
- 4Y-5 身体表象と実像を関連付ける人形型インタフェース(ARとVR,学生セッション,インタフェース)
- F08(3) 感性インタフェースをデザインする(【F08】ヒューマンインタフェースデザインのフロンティア)
- Proposal of a Risk-Stratification System for the Japanese Population Based on Blood Pressure Levels : The Ohasama Study
- Reproducibility of Nocturnal Blood Pressure Assessed by Self-Measurement of Blood Pressure at Home
- Increase of Colon and Rectal Cancer Incidence Rates in Japan: Trends in Incidence Rates in Miyagi Prefecture, 1959-1997
- 主成分の順位を保持する非線形主成分分析(情報論的学習理論論文小特集)
- 最適化のための粗視化ニュートン法
- 声道モデルの機械系による実現とその計算機制御
- 適応型歌声自動伴奏システム
- 歌声のピッチ検出による自動伴奏システム
- 快適生活支援RTシステムの開発
- 6-3 ロボットの感性化 : 人に優しいロボット(6.感性の産業応用,感性情報学)
- 情報機器利用スキル獲得プロセスに関する研究
- 人間と機械の新しい関係 : ワセダのロボットたち
- 情報機器利用スキル獲得プロセスに関する研究(一般セッション,コミュニケーション支援,共生コミュニケーション及び一般)
- 早稲田大学先進理工学部応用物理学科 : 橋本研究室
- 3W-1 意味センサネットワークを用いたロボットシステムの制御(ロボットと社会インフラ,学生セッション,ネットワーク)
- 2301 人工構造物における受動的な自己増殖の実現(要旨講演,一般セッション:マイクロナノ理工学)
- 1303 急加速度状況での上半身運動によるロポットのバランス制御の試み(要旨講演,一般セッション:メカニカルシステムとその知能化)
- 6ZD-8 "意味"を伝達するセンサネットワークの提案(アバタ・エージェント・ロボット,学生セッション,インターフェース)
- 2ZC-2 可視光ビームインタフェースを用いた生活空間の提案(インタラクティブデザイン,学生セッション,インターフェース)
- 3W-5 カメラ動きパラメータのクラスタリングによる動視点からの動物体検出(動画像・メディア理解,学生セッション,人工知能と認知科学)
- 2V-7 距離画像とカラー画像のセンサフュージョンに基づくロボットの人間追従(3次元画像処理,学生セッション,人工知能と認知科学)
- ロボットと画像計測・認識
- 連想型自己組織化マップを用いたリズム演奏支援システム(音楽情報,インタラクションの理解とデザイン)
- Passive RFIDを用いた自律移動ロボットのナビゲーション(留学生による日本語技術論文)
- A-20-14 RFIDを用いた障害物回避及びナビゲーション(A-20.スマートインフォメディアシステム,一般セッション)
- 1F-1 人間-ロボットの直感的なインタラクションのための発光視覚センサの提案(知的ヒューマンインタフェース,一般セッション,インタフェース)
- 2T-2 複数のカラー画像による低ビット領域の高精細化(圧縮・復元,学生セッション,人工知能と認知科学)
- 1302 伸縮アーム型壁面移動支援ロボットの開発(要旨講演,一般セッション:メカニカルシステムとその知能化)
- 2Q-1 人間型ロボットによる自律的な音韻獲得と物体動作の関連付け(ロボカップ・ロボット,学生セッション,人工知能と認知科学)
- D-7-12 聴覚刺激による装着型筋電バイオフィードバック機器の開発(D-7.MEとバイオサイバネティックスB,一般セッション)
- ICMC2000レポート
- 演奏表情付けコンテストICMPC-Rencon開催報告(Rencon)
- 家庭におけるコンピュータの利用活性化モデル-NARUTO
- Blood Pressure, Levels of Serum Lipids, Liver Enzymes and Blood Glucose by Aldehyde Dehydrogenase 2 and Drinking Habit in Japanese Men
- Colorectal Cancer and Serum C-reactive Protein Levels : a Case-control Study Nested in the JACC Study
- Glucose Intolerance and Colorectal Cancer Risk in a Nested Case-Control Study among Japanese People
- Alcohol Consumption and Colorectal Cancer Risk : Findings from the JACC Study
- Medical History of Circulatory Diseases and Colorectal Cancer Death in the JACC Study
- Preface
- Stability of Frozen Serum Levels of Insulin-like Growth Factor-I, Insulin-like Growth Factor-II, Insulin-like Growth Factor Binding Protein-3, Transforming Growth Factorβ, Soluble Fas, and Superoxide Dismutase Activity for the JACC Study
- High Ratio of Myeloid Dendritic Cells to Plasmacytoid Dendritic Cells in Blood of Patients With Acute Coronary Syndrome
- 次回大会長挨拶
- C-3-27 近接物体のみを検知する光学デバイス(光記録・計測(I),C-3.光エレクトロニクス,一般講演)
- 環境知能化とロボット技術 (特集 環境知能化)
- D-12-137 雲の動きを用いた衛星画像の雲分類(D-12.パターン認識・メディア理解,一般講演)
- D-14-11 擬音語と音響を用いた音響データベースの直感的な音探索(D-14.音声・聴覚,一般講演)
- Rencon Workshop 2010: 演奏表情付けコンテスト
- Activities of Daily Living, Functional Capacity, and Life Satisfaction of Subacute Myelo-Optico-Neuropathy Patients in Japan
- ユーザを迷わせないマニュアルデザイン
- A-19-2 Passive RFIDを用いた自律移動ロボットのナビゲーション(A-19.福祉情報工学,一般講演)
- D-12-74 画像データの非線形主成分分析(D-12.パターン認識・メディア理解A)
- 非線形主成分分析による実世界データの解析(テーマセッション(2))(データマイニングとパターン認識・メディア理解)
- 主成分の順位を保持する非線形主成分分析法
- D-2-17 環境変化に高速に適応するニューラルネットワーク
- 演奏表情付けコンテストEC-Rencon開催報告
- 音楽音響信号を対象としたジェスチャによる音楽指揮システム(ソーシャルインタラクション及び一般)
- IMSプロジェクト(HUTOP)におけるハプティックインタフェースの研究
- 尤度情報に基づく温度分布を用いた強化学習法
- FeelLight : 非言語情報通信のための双方向入出力デバイス(セッション5 : マルチモーダルデザイン(2))
- D-8-10 エネルギー自給型屋外環境ロボット(D-8. 人工知能と知識処理)
- 研究室紹介 橋本周司研究室(早稲田大学)
- 2000-MUS-36-4 マルチモーダル情報を用いた仮想音楽環境
- 演奏表情付けコンテスト EC-Rencon 開催報告
- 5Y-1 1bitシグナル通信によるコミュニケーションの誘発(コミュニケーション支援,学生セッション,インタフェース)
- 5S-2 人間型ロボットによる内発的動機に基づく物体理解のための行動選択(認知・推論・探索,学生セッション,人工知能と認知科学)
- 3R-1 人間型ロボットによる変分ベイズ学習を用いた稼動範囲の獲得(学習,学生セッション,人工知能と認知科学)
- 6Y-6 伝送遅延を考慮した移動ロボットの協調遠隔操作(ネットワーク応用,学生セッション,ネットワーク)
- 4X-7 装着型デバイスを用いた身体動作による楽曲操作(音楽情報科学(3)検索・インタフェース,学生セッション,人工知能と認知科学)
- 1X-6 人間型ロボットによる能動的な稼動範囲の獲得と動作計画(ロボット,学生セッション,人工知能と認知科学)
- 1X-2 視聴力覚の協調に基づく人間型ロボットによる能動的な物体理解の試み(ロボット,学生セッション,人工知能と認知科学)
- 1bitコミュニケーション(モビリティ&モバイルユーザビリティ, 通信品質やヒューマンファクタを考慮したモバイルネットワーク及びVRアプリケーションの構築, 及び一般(キーワード: VR, ヒューマンファクタ, アプリケーション品質))
- 1bitコミュニケーション(コミュニケーションクオリティ一般, 通信品質やヒューマンファクタを考慮したモバイルネットワーク及びVRアプリケーションの構築, 及び一般(キーワード: VR, ヒューマンファクタ, アプリケーション品質))
- 1bitコミュニケーション(コンテンツ生成, 他, 通信品質やヒューマンファクタを考慮したモバイルネットワーク及びVRアプリケーションの構築, 及び一般(キーワード: VR, ヒューマンファクタ, アプリケーション品質))
- 擬音語と音響を用いた音響データベースの検索(音声とコミュニケーション及び一般)
- ニューラルネットワークによる顔面表情の物理的パラメータと感性的パラメータの対応付け
- 自己保存に基づいたロボットの行動獲得 (第6回 知能メカトロニクスワークショップ--人間を支援するメカトロニクス技術) -- (セッション インテリジェントマシン)
- マルチモーダル移動ロボットを用いた仮想音楽環境 (「インタラクティブアート」特集)
- ニューラルネットワークを用いた感性情報の数量化 (パターン認識のための学習 : 基礎と応用)
- 人工感情モデルによる人間とロボットの相互作用
- ニューラルネットワークを用いた感性情報と物理的特徴の対応づけ
- Neural Networks の数量化理論への適用
- ホログラトロンとアソシアトロンの結合による連想記憶
- WEB担当より
- モジュール型デバイスによる実世界への図形描画と空間計測
- 演奏表情付けコンテストSMC-Rencon開催報告
- 社会的音楽インタラクションのためのインタフェース開発
- 1A2-M07 解剖学的知見に基づく人体着型用ロボットスキンを用いた動作教示
- 1P1-D06 認知運動機能を支援する人体着用型ロボットスキンの設計(リハビリテーションロボティクス・メカトロニクス)
- マルチモーダル移動ロボットを用いた仮想音楽環境(インタラクティブアート)
- 社会的音楽インタラクションのためのインタフェース開発