ロックアップ期間による制約を考慮した確率的バンディット問題
スポンサーリンク
概要
- 論文の詳細を見る
バンディット問題は,複数のアーム (選択肢) から最も報酬の高いものを探す問題であり,探索と活用のトレードオフの代表的なモデルの1つである.近年において,情報推薦,最適経路探索,最適化,モデル選択などの分野への応用を動機として,バンディット問題は機械学習やオペレーション・リサーチの分野において注目を浴びている.本稿はロックアップ期間 (選択するアームを変更できない期間) の制約を考慮したバンディット問題を提案し,どのような方策を取れば良いかを調べる.既存の多くの有益なアルゴリズムがロックアップ期間を含めた場合に自然に拡張可能であることを示し,その regret (性能) を評価する.この regret がロックアップ期間の最大の大きさに依存することを示す.さらに,ロックアップ期間が大きい場合に regret を減らすことができる Balancing and Recommendation (BaR) メタアルゴリズムを提案する.また,計算機実験の結果を示し,理論的な結果と比較し考察する.
- 2013-02-20
著者
-
中川 裕志
東京大学情報基盤センター
-
中川 裕志
東京大学
-
佐藤 一誠
東京大学
-
佐藤 一誠
東京大学情報理工学系研究科
-
佐藤 一誠
東京大学大学院情報理工学系研究科
-
小宮山 純平
東京大学
-
中川 裕志
東京大学情報基盤センター図書館電子化研究部門
-
中川 裕志
東京大学 情報基盤センター
-
中川 裕志
東京大学情報基盤センタ
関連論文
- テキストマイニングの活用(データマイニングの活用)
- 多クラス識別問題におけるPassive-Aggressiveアルゴリズムの効率的厳密解法(自然言語処理,知識獲得,情報爆発論文)
- 2P-8 ソーシャルブックマークにおけるスパムの検出(Webマイニング,学生セッション,データベースとメディア)
- 同義語辞書作成支援システム
- Word 2003 XML文書への情報ハイディングシステム
- 〈情報処理学会 情報学基礎研究会 (F1) 第96回 発表論文〉 接尾辞配列とディリクレ過程混合モデルを用いたテキスト中の数値表現マイニング (筑波大学東京キャンパス(秋葉原地区). 2009年11月19日)
- コーパス検索支援のための動的同義語候補抽出
- コンテンツの生産・活用に関する研究 : 科研「情報学」プロジェクトのコンテンツ研究を振り返って(「情報学を創る」-科研プロジェクトがめざしたもの)
- 25aQL-9 量子アニーリング法を用いた変分ベイズ推定(情報統計力学,領域11,統計力学,物性基礎論,応用数学,力学,流体物理)
- HTMLの表形式データの構造認識と携帯端末表示への応用