適応的な状態分割を行うQ-Learningにおける状態数の調整方法(人工知能, 認知科学)
スポンサーリンク
概要
- 論文の詳細を見る
本論文は,強化学習の代表的な手法であるQ-learningにおいて,学習エージェントが自律的に環境の状態を分節化する手法に,状態数の抑制と,状態分割の促進を加えた場合の効果について述べる.学習エージェントが行動する環境に対し,エージェントの設計者が明示的な状態の境界を与えられない場合,エージェントは学習と同時に,適切な行動に必要な内部離散状態を自律的に獲得する必要がある.この種の方法として,強化信号をもとに状態を分割する簡便な手法(QLASS)が提案されている.しかし,従来の方法は,学習の進行とともに状態数が増えすぎるという問題があった.本論文では,エージェントの各内部離散状態に対し,温度と適格度を定義し,これらの値に応じて,内部離散状態数の抑制,追加,及びランダム行動を促す方法を提案する.本方法を動的な環境を含むいくつかのタスクに用いた結果,強化信号のみを用いる場合に比べて,少ない状態数で同等の学習結果が得られること,また,少ない試行数の学習でも,少ステップでのタスク達成が実現できることが明らかとなった.
- 社団法人電子情報通信学会の論文
- 2003-07-01
著者
-
平田 広則
千葉大学工学部
-
小圷 成一
千葉大学
-
濱上 知樹
千葉大学大学院自然科学研究科
-
小圷 成一
千葉大学大学院自然科学研究科
-
平田 廣則
千葉大学大学院自然科学研究科
-
濱上 知樹
横浜国立大学大学院工学府
-
濱上 知樹
横浜国立大学大学院工学研究院
-
平田 廣則
千葉大学大学院工学研究科
-
小圷 成一
千葉大学大学院工学研究科人工システム科学専攻
関連論文
- パルスニューロンモデルを用いたブロック構造ニューラルネットワーク
- カオス Lagrange 関数法を用いた混合整数最適化手法
- 異なる動特性を有する群による分散型 Particle Swarm Optimization
- 複素数で表現された行動価値を用いるQ-learning(人工知能,認知科学)
- マルコフ決定過程下のマルチエージェント強化学習における創発的行動の情報論的解析
- ソフトウェア改変における母体の複雑性の影響について (信頼性)
- 慣性項を改良した論理演算型 Binary Particle Swarm Optimization
- 状態系列の多重化による改良型アニーリング法のVLSIブロック配置問題への適用
- 期待強化値を考慮した動的強化関数を用いる Profit Sharing
- 統合的最適化システムを用いた自律移動ロボットコントローラの構築
- Particle Swarm Optimization を用いたブロック構造ニューラルネットワークの学習
- 非合理的ルールの期待強化値抑制条件に基づくマルチエージェント強化学習の間接報酬設計
- 同時摂動法を用いたカオス最適化
- パルスニューラルネットワークのための学習率最適化を用いた誤差逆伝播学習法
- 連続タスクにおける強化学習のための報酬設計
- 強化学習における状態空間の漸次的構成法の改善
- 千葉大学大学院工学研究科システム数理研究室
- 短期的な伝達効率の調節機構を持つパルスニューラルネットワークの自律移動ロボットへの応用
- パルスニューラルネットワークと教師あり学習を用いる自律移動ロボットの順行路走行
- ニューラルネットワークによる重要温度領域推定を用いたシミュレーテッドジャンピング
- パルスニューラルネットワークのための入出力パルスのタイミングを調節する教師あり学習則(バイオサイバネティックス,ニューロコンピューティング)
- マルチエージェントシステムのための階層型モジュール強化学習
- ニューラルネットワークの違いに着目した自律移動ロボットコントローラの性能比較
- パルスニューラルネットワークのための入出力パルスのタイミングを調節する教師あり学習則(一般)
- 故障を考慮したブロック構造ニューラルネットワークの進化的構築
- ティーチングとQ学習を併用した知的車椅子の自律走行
- 適応的な状態分割を行うQ-Learningにおける状態数の調整方法(人工知能, 認知科学)
- 複数環境学習オートマトンネットワークによるITS自律走行制御
- パルスニューラルネットワークにおける破局的な忘却の抑制を考慮したヘブ型学習則
- フローシステムモデルによる分岐構造形成の計算機シミュレーション
- 経験的知識に基づく遺伝子操作を導入したGAによる効率的なモジュール構造型ロボットの迷路巡航学習
- 誘因価値に基づいて行動選択確率が変化する強化学習法
- 短期的な伝達効率の調節機構を持つパルスニューラルネットワーク
- B208 セル上に配置されたマルチエージェントによる群集行動分析の一手法(人の流れ)
- ニューラルネットワークによる温度推定に基づく高速化シミュレーテッドアニーリング
- 免疫機構を導入したシミュレーテッドアニ-リングの二次割当問題への応用
- 列型FPGAの低消費電力指向配置・概略配線手法
- システム最適化技法の21世紀
- A-3-3 階層化クラスタリングを用いた平均場アニーリング
- 活性度に基づく遺伝子評価を導入した遺伝的アルゴリズムによる自律移動ロボットの行動ルール獲得
- ニューラルネットワークを用いた身体構造が処理系に依存する仮想生物の形態進化
- 遺伝子評価を導入した遺伝的アルゴリズムによる自律移動ロボットの行動ルール獲得
- Q学習機能を有する新しい学習オートマトン
- ニューラルネットワークによるシミュレーテッドアニーリングの初期温度推定法
- 契約ネットプロトコルを用いたマルチエージェントによる自律分散型の配電系統事故復旧方式
- マルチエージェント学習を用いた分散電源の協調制御
- 2層型契約ネットプロトコルを用いた配電系統事故復旧の分散処理システム
- 複数の位相変化量を用いる複素 Profit Sharing
- A-12-9 Multi-car Elevator制御における社会的群知能の最適化(A-12.コンカレント工学,一般セッション)
- D-8-14 確率的に表現型が決まる二倍体遺伝的アルゴリズムの多様性維持に関する一検討(D-8. 人工知能と知識処理,一般セッション)
- 人体モデルを用いた自律分散型体内センサの位置推定法
- O-010 音声を用いた医療現場における業務コンテキストの抽出(情報システム,一般論文)
- M-061 進化的ペトリネットを用いた依存関係のある行動コンテキストの学習(ユビキタス・モバイルコンピューティング,一般論文)
- F-006 不完全知覚を含む環境におけるQ-learningの学習係数に関する一考察(人工知能・ゲーム,一般論文)
- RF-001 連続的な状態空間における複素強化学習(人工知能・ゲーム,査読付き論文)
- 環境の変化に応じた多様性維持を可能にする二倍体遺伝的アルゴリズム
- L-006 インプラントセンサネットワークにおけるマイクロロボットの自律的位置推定(L分野:ネットワーク・セキュリティ)
- F-001 複素強化学習において行動価値を多重化する効果について(F分野:人工知能・ゲーム)
- LF-012 確率的に表現型が決まる二倍体GAを用いた動的環境下での最適化に関する研究(人工知能・ゲーム)
- International Conference on System, Man, and Cybernetics(SMC2006)に参加して(国際会議の報告)
- 確率的に表現型が決定する二倍体GA
- AS-3-3 アクティブRFIDを用いた認知障害者のためのコンテキストアウェアネス情報支援システム(AS-3.将来ライフを拓くユビキタス技術(1)-RFID(ICカード・ICタグ)技術-,シンポジウム)
- LF_007 複素評価値を用いたProfit Sharingに関する研究(F分野:人工知能・ゲーム)
- 知的エージェントによる認知障害者のためのコンテキストアウェアネス情報支援システム
- 結合離散化勾配系モデルを用いた多目的最適化
- 知的車椅子ロボットにおける環境パラメータを介した協調行動の獲得
- 学習オートマトンによるマルチカーエレベータ制御
- 知的車椅子のための進化型シミュレータと行動統括機構の開発
- セル上に配置されたマリチエージェントによる群集流のシミュレーシュン
- 知的車椅子における環境適応のための状態空間の構成法
- マルチエージェントシステムにおけるデザインパターンを用いたフレームワークの設計
- 音源波形形状を高調波位相により制御する音声合成方式
- 規則音声合成のためのパワー制御モデルの検討
- 規則音声合成のためのパワー制御モデルの検討
- 規則音声合成のためのパワー制御モデルの検討
- 強化学習による複数のメトリックを考慮したQoSルーティングアルゴリズム
- 遺伝的アルゴリズムに基づく音声合成のためのスペクトルパタン圧縮法
- 規則合成におけるパワーパタンの制御方法
- 2)VTRによる講義とそのアンケートの結果分析(画像技術応用研究会(第33回))
- VTRによる講義とそのアンケートの結果分析
- 代数方程式の実根分布の巨視的特徴
- エコシステムの薬物濃縮過程に関するフロ-モデル
- 場所の移動を伴う階層エコシステムのフロ-モデル
- パルスニューロンモデルを用いたブロック構造ニューラルネットワーク
- 状態空間の階層構造を考慮した遺伝的アルゴリズムによるVLSI配置手法
- 積和型sin素子を用いた階層型ネットワークモデル
- 成長を伴う複雑ネットワーク設計手法
- 平均場近似計算法を用いた分散型QoSルーティングアルゴリズム
- グラフ分割問題における多教師付き学習オートマトン計算法
- 通信機能を導入した集団学習オートマトンによる制御学習
- ブロック構造型パルスモードニューラルネットワークのFPGA実装
- 閾値を動的に調整する閾値受理法の二次割当問題への応用
- 成長を伴う複雑ネットワーク設計手法の汎用性の一検証
- 距離型cos素子を用いたネットワークモデル
- 免疫的最適化手法の性能評価
- 免疫的最適化手法 -VLSIフロアプラン設計問題への応用-
- 階層的問題分割によるニューラルネットワーク学習法
- 問題分割によるニューラルネットワーク構造決定学習法
- Boolean Particle Swarm Optimization の二次割当問題への応用
- 成長を伴う複雑ネットワーク設計手法