情報理論的観点からのソフトマックス行動選択における変数設定の改良(機械学習一般とその応用)
スポンサーリンク
概要
- 論文の詳細を見る
強化学習における行動選択の政策を表す際に最もよく使われるソフトマックス行動選択に焦点を当てる.様々な文献で提案されているような複雑な行動選択方法に比べて,ソフトマックス行動選択は実装が容易で,調整が必要なパラメータが本質的にただ一つのみで扱いやすいという利点がある.にもかかわらず,環境に合わせてそのパラメータを適当に調整すれば,実際には十分に機能する.そこで,本論文では,そのパラメータ調整にかかるコストを軽減させるため,最良パラメータ周辺の帯域幅が広がるようにソフトマックス行動選択の変数設定方法を改良する.様々なタイプのタスクを用いて,その変数設定方法が最良パラメータ周辺の帯域幅を広げるのに有効であることを示す.
- 2012-06-12
著者
関連論文
- ソフトマックス行動選択のパラメータ調整の手間を省くための新たな関数の導入 (ニューロコンピューティング)
- F_041 マルコフ決定過程に基づくマルチエージェントシステムの漸近的性質(F分野:人工知能・ゲーム)
- 混合モデルにおける部分母集団の階層構造を同定するためのクラスタ分析(一般セッション7)
- 混合モデルにおける部分母集団の階層構造を同定するためのクラスタ分析(一般セッション7,顔・ジェスチャの認識・理解)
- 強化学習の収益最大化における漸近等分割性の役割
- マルチエージェント強化学習におけるエージェント間の制約の影響について(学習理論)
- 階層隠れCRF(パターン認識)
- 確率的逐次決定過程の分類情報スペクトル的アプローチ
- 混合ディリクレ過程モデルを用いたARMAモデルべース時系列クラスタリング
- ソフトマックス行動選択のパラメータ調整の手間を省くための新たな関数の導入
- HHMMsとHHCRFsの状態系列推定性能に関する比較
- 形状認識のための核関数を用いた形状表現(パターン認識)
- F-044 強化学習におけるパラメータ設定に頑健な行動選択戦略(人工知能・ゲーム,一般論文)
- RF-004 混合ディリクレ過程モデルを利用したARMAモデルベース時系列クラスタリング(人工知能・ゲーム,査読付き論文)
- 確率密度推定に基づくRDSP法を用いた音素データの階層クラスタ分析(研究速報)
- RDSP法を使った音素データの階層クラスタ分析
- 混合モデルにおける部分母集団の階層構造を同定するためのクラスタ分析(一般セッション7,顔・ジェスチャの認識・理解)
- H-004 確率密度推定を用いたRDSP法によるクラスタの階層構造の調査(H分野:画像認識・メディア理解)
- 強化学習の収益最大化における漸近等分割性の役割
- EMアルゴリズムを用いた確率的通信路に対する適応等化法
- 典型系列を使った強化学習の解析
- 強化学習における漸近等分割性について
- 強化学習における典型系列について
- 強化学習における典型系列について(NC一般セッション(3))(認識と学習,模倣学習)
- 強化学習における典型系列について(NC一般セッション(3))(認識と学習,模倣学習)
- H-004 ガウス過程事前分布を用いた時系列多重整列法(H分野:画像認識・メディア理解,一般論文)
- 5W-3 階層的時系列モデルによる固有表現抽出(言語情報抽出,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 3W-8 HMMの変分ベイズ学習と環境音認識への応用(学習(2),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 3W-3 ガウス過程に基づく生成モデルを用いた時系列の多重整列(学習(2),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- H-003 半正定値計画法による時系列データの埋め込み(H分野:画像認識・メディア理解)
- H-002 階層隠れCRFの提案(H分野:画像認識・メディア理解)
- 強化学習における複雑さを評価するためのLempel-Ziv符号化(統計的学習理論及び一般)
- LG-4 強化学習における収益の情報源符号化とその行動選択への応用(G. 人工知能)
- LH-001 スケールの影響に対して頑健な曲線の最適整合(画像認識・メディア理解)
- パーティクルフィルタを用いた歩き方による個人識別(一般セッション4)
- I_024 階層的クラスタリングにおけるWard法と情報理論的な非類似度との関係(I分野:画像認識・メディア理解)
- パーティクルフィルタを用いた歩き方による個人識別(一般セッション,事例ベースメディア解析)
- クラスタリングにおけるクラスタ間の新しい非類似度について
- ガウス過程事前分布を用いた時系列整列
- 階層的時系列データのための識別モデル(パターン認識)
- ガウス過程に基づくノンパラメトリックベイズ時系列整列(人工知能,データマイニング,学生論文)
- 情報理論的観点からのソフトマックス行動選択における変数設定の改良(機械学習一般とその応用)
- 階層的時系列データのための識別モデル
- H-042 ガウス過程事前分布を用いた空間相関混合モデルによる画像分割(H分野:画像認識・メディア理解,一般論文)
- H-040 空間相関有限混合モデルによる画像分割(H分野:画像認識・メディア理解,一般論文)