反応曲線が既知なロブ-パス問題の最適解
スポンサーリンク
概要
- 論文の詳細を見る
心理学において, 「慣れ」や「飽き」のように, 同じ選択を続けると効果が悪くなる現象を記述する, ロブ-パス問題と呼ばれるモデルがある. Abe and Takeuchiは, この問題をオンライン学習問題として定式化し, それがmulti-armed bandit問題の拡張とみなせる事を指摘した. 古典的なbandit問題との違いは, プレイヤーの選択が環境自体に影響を与え, 環境を変化させてしまうという点にある. 学習問題としてのロブ-パス問題に対してこれまでに提案された戦略は, すべて基本的に, 「未知環境からの反応をもとに, その環境に対する最適"定常"戦略を推定し, その戦略に従って選択肢を選ぶ」ということを繰り返すものである. また, 戦略の評価には, 環境が既知だった場合の最適"定常"戦略と比較して, 実際には環境が未知な事によるロスが, どの程度におさまるかを基準としている. このような方針が妥当かどうかを判断するためには, 環境が既知だった場合の(定常とは限らない)最適戦略を知っておく必要がある. 本論文はこれを導出する. その系として, 従来研究で仮定されていた「マッチング条件」が, 最適戦略が打ち切り時刻によらないための必要十分条件となっている事を指摘する. これにより, 目標として"定常"戦略のみを考えることの正当性が保証されることになる. マッチング条件自体の意味や妥当性に関する議論も行う. さらに, 漸近最適性を定義し, 忘却ありの相手なら定常戦略が漸近最適となるが, 忘却なしなら漸近最適戦略は存在しない事を示す.
- 社団法人日本オペレーションズ・リサーチ学会の論文
著者
関連論文
- 聴覚認知に関与する海馬 - 皮質活動の解析
- 仮現運動感覚をもたらす閃光刺激による誘発脳磁界の検討
- 事象関連脳磁界のダイポール推定
- 視覚認知における同一線分内の運動情報伝達
- 文字の心的回転の脳内過程
- 手の左右判別に伴う脳内活動
- Motor Imageryにおける脳内処理の時空間構造
- メンタルローテーションの情報処理モデル : 脳磁データからの推定
- 作業分担における情報交換ルールの強化学習による自動獲得
- 倒立振子の協調制御における言語の自発的形成
- 近傍モデル遺伝的アルゴリズムによる多目的最適化
- 線画呈示に伴う脳内活動部位の時間変化
- 学会運営半年にして思うこと : 会長就任のご挨拶にかえて
- 触覚ディスプレイ装置による触感覚計測
- ニューロンクラスによるスパイク間隔統計の相違
- ニューロンクラスによるスパイク間隔統計の相違
- 13pTC-8 BVP モデルと LIF モデルの高次スパイク間隔統計量の相違(ニューラルネットワーク : 神経系のモデルを含む, 領域 11)
- 時空間構造をもつ入力に対するSTDPベースの自己組織化マップ
- LIFモデルとBVPモデルで見られる高次スパイク間隔統計の相違
- STDPによるシナプスパターンの競合と調節のメカニズム
- ニューロンモデルのクラス分類と入力の性質によるスパイク統計の相違
- 2P2-3F-B6 人とロボットの歩行同期のための視覚による踵追跡・歩行ピッチ抽出
- 2P1-3F-B8 パターン認識の前処理としての次元圧縮法
- 両眼競合知覚の神経機構
- 二次元動画像からの動作情報抽出
- A-2-23 カオス系列刺激によるBVPニューロンの応答とその統計的解析
- A-2-17 有色ノイズ入力を与えたBV ニューロンの応答
- BVPニューロンへの有色ノイズ刺激とその応答
- 進化型アナログLSI -遺伝的アルゴリズムによる製造誤差への適応-
- 1A1-77-110 逐次学習型線形判別分析アルゴリズムの性能比較
- 槌田 敦: 石油と原子力に未来はあるか; 資源物理の考えかた, 亜紀書房, 東京, 1978, iii+233ページ, 19×13cm, 980円.
- 反応曲線が既知なロブ-パス問題の最適解
- 砂時計型ネットを用いた多価関数の学習
- 砂時計型ネットの中間次元数選択について : AIC・MDLの不適切性と新しい基準量
- 多重化砂時計型ネットを用いた広いクラスの曲面によるデータフィッティング
- 砂時計型ニューラルネットの競合学習
- データ補正の教師無し学習 : 砂時計型ネットは何を学習しているのか
- RBFネットワークを用いた時変環境におけるQ-learning :遺伝的アルゴリズムによる有用度関数の構成法
- 筋肉のHodgkin-Huxley方程式における周期倍分岐の連鎖
- 筋肉のHodgkin-Huxley方程式の2パラメータ分岐
- 筋細胞膜のHodgkin-Huxleyモデルでの周期倍分岐の連鎖
- 筋肉のHodgkin-Huxley方程式の周期解の分岐
- 自己連想ニューラルネットワークにおける誤想起の抑制 : 入力パターンへのノイズ付加による想起能力の向上
- 自己連想記憶ニューラルネットワークの引き込み領域 : 誤想起を減らす手法の提案
- 非侵襲脳機能計測による認知・情動の中枢過程の検討
- RBFを用いた進化型ハードウェアによる適応等化器
- RBFを用いた進化型ハードウェアによる適応等化器
- 遺伝的アルゴリズムを用いた時変環境におけるQ-learning