MapReduceによる確率的勾配降下法を用いた広告クリック率予測の実践
スポンサーリンク
概要
- 論文の詳細を見る
本論文では, KDDcup 2012 track2 の商用検索エンジンの大量検索ログからの広告クリック率予測タスクを MapReduce 処理系である Hadoop 上で確率的勾配降下法 (Stochastic Gradient Descent) を用いて解いた事例を示し,大規模機械学習を実践的システムに適用したことにより得られた知見を示す.本論文の核となる貢献は,確率的勾配降下法による大規模なオンライン学習を Hive/Pig 上でそれぞれ実現した事例を示し,課題となる問題とその対処法などを明らかにすることにある.また, Hadoop 操作系として代表的な Hive と Pig について,それぞれの特徴,言語体系の違いによる学習器の実装への影響,性能差を述べる.
- 2012-11-12
著者
-
小島 功
電総研・ソフトウエア部
-
横山 昌平
産業技術総合研究所グリッド研究センター
-
石川 博
静岡大学情報学部情報科学科
-
石川 博
静岡大学情報学部
-
Ishikawa H
Fukuyama Univ. Hiroshima Jpn
-
小島 功
産業技術総合研
-
小島 功
産業技術総合研究所グリッド研究センター
関連論文
- 分散環境下における情報システムの信頼性(ストレージの信頼性)
- 3.e-サイエンス基盤構築のためのミドルウェア技術(e-サイエンスを実現するグリッド技術)
- 予約利用可能なオブジェクトベース・ストレージの設計(ストレージシステム,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 地球科学への応用に向けたWikipedia上の時空間データ抽出と可視化(Webインタフェース/Wikipedia,e-Science及びData Intensive Science)
- Tsukuba-GAMA : E-サイエンス基盤のためのユーザ管理システムの設計と実装(グリッド)
- MapReduceにおけるRDF-DB処理に適したデータ分散格納方法の提案(HPC-14:分散処理,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- 分散RDFデータベースに関する研究(jDBワークショップ)
- GEO Grid : 地球観測グリッドの設計と実装(分散処理とシステムソフトウェア)
- Tsukuba-GAMA: e-サイエンスのためのユーザ管理システムの設計と実装(支援・管理システム,システム開発論文)
- Webブラウザから利用できるSAXパーサ"Freddy"の実装と評価(構造化文書・XML,データ工学論文)
- 関係データベースを利用したXMLリポジトリのためのアクセス管理手法
- Tiled Displayを用いた大規模センシングデータの可視化システム (データ工学)
- インクリメンタルに更新可能なXPushマシンの性能向上と応用に関する考察(夏のデータベースワークショップ2007(データ工学,一般))
- インクリメンタルに更新可能なXPushマシンの性能向上と応用に関する考察(XML (2),夏のデータベースワークショップ2007(データ工学,一般))
- D-8-1 特定用途向け簡易Web検索システムの自動構築に向けて(D-8. 人工知能と知識処理,一般セッション)
- 多様性を考慮したWebブログマイニングの研究(ウェブ情報とデータベースに関して(ポスター講演))
- 単語の特徴量を考慮した検索結果クラスタに関する多視点融合型スニペットの構築(セッション8a:Web検索)
- センサネットワークを利用した省電力化のための人物誘導(セッション5c:セキュリティ・プライバシー)
- ブログ記事からのトピック別評判情報変遷パタンの抽出手法について(夏のデータベースワークショップ2007(データ工学,一般))
- トラックバックコミュニティにおける特徴的なブログ記事集合の抽出について(夏のデータベースワークショップ2007(データ工学,一般))
- トラックバックコミュニティにおける特徴的なブログ記事集合の抽出について(ソーシャルWeb,夏のデータベースワークショップ2007(データ工学,一般))
- ブログ記事からのトピック別評判情報変遷パタンの抽出手法について(SNS・blog,夏のデータベースワークショップ2007(データ工学,一般))
- Webブラウザによる超高解像度可視化基盤の開発
- 異なるアーキテクチャのメニーコアプロセッサにおけるステレオマッチングプログラムの高速化と性能評価
- ホモジニアス・ヘテロジニアスマルチコアによるDEM生成の高速化と性能評価
- ホモジニアス・ヘテロジニアスマルチコアによるDEM生成の高速化と性能評価
- Web GISアプリケーションフレームワークrinzo.maの設計と応用
- 色情報を利用したWebページ検索手法について(セッション8a:Web検索)
- 重み付き拡大アンカーテキストを用いたフォーカスドクローラーの開発(夏のデータベースワークショップ2007(データ工学,一般))
- 重み付き拡大アンカーテキストを用いたフォーカスドクローラーの開発(Web技術,夏のデータベースワークショップ2007(データ工学,一般))
- Max Flowアルゴリズムを用いたWebページのクラスタリング方法とその評価
- 差異を意識したクラスタリングとその特徴量集約手法の検討(クラスタリング, 夏のデータベースワークショップDBWS2005)
- Max FlowアルゴリズムによるWebページのクラスタリング方法(Web検索, 夏のデータベースワークショップDBWS2005)
- 差異を意識したクラスタリングとその特徴量集約手法の検討(クラスタリング, 夏のデータベースワークショップ2005)
- Max FlowアルゴリズムによるWebページのクラスタリング方法(Web検索, 夏のデータベースワークショップ2005)
- 斜交基底を用いたメタ検索におけるランクリストの統合方法の提案(情報フィルタリング・情報要約, データ工学論文)
- SearchLife:単語の特徴量を考慮した多視点クラスタリング検索エンジン
- 1S-9 ブログ分析のための制約付きクラスタリングシステムの実装(ソーシャルWeb,学生セッション,データベースとメディア,情報処理学会創立50周年記念)
- 製造設備向けリアルタイムSQL生成ユニットの開発
- 格文法を用いた複数文書融合手法(応用・事例2)(夏のデータベースワークショップDBWS2004)
- 撮影状況メタデータと画像低次特微量を用いた画像検索結果提示手法の検討(一般,「グリーンAI」及び一般)
- アクセス性能を保証する並列ファイルシステムの提案とストレージサーバの設計
- 予約利用可能なオブジェクトベース・ストレージの設計(ストレージシステム,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- インクリメンタルに更新可能なXPushマシンにおけるフィルタ交換のコスト削減(データ処理アルゴリズム)
- インクリメンタルに更新可能なXPushマシンにおけるフィルタ交換のコスト削減(データ処理アルゴリズム)
- ブログの相互関係性を考慮したブログ記事分類手法の検討
- P2P環境における三次元ハッシュ索引を用いた分散RDFデータベース問合せ処理
- Tiled Displayを用いた大規模センシングデータの可視化システム(センサデータ処理及び一般,センサデータ処理,ストリームデータベース,及び一般)
- Webブラウザに基づくOGCサービスの連携アーキテクチャ(Webインタフェース/Wikipedia,e-Science及びData Intensive Science)
- 大規模資源の管理・制御に関する技術の実証実験 : 新世代ネットワークプラットフォームの実現に向けて(ネットワーク品質,トラヒック計測,サービス品質,一般)
- 88-5 オブジェクトサーバと外部システムとの統合法
- 86-45 完全性情報とその質問処理への応用
- パネル討論会 : マルチメディアデータベースシステム
- 86-30 ピザンチン問題のデータベースシステムへの応用
- 4S-8 撮影状況メタデータと画像低次特徴量を用いた画像検索結果提示システムの実装(マルチメディア,学生セッション,データベースとメディア,情報処理学会創立50周年記念)
- 多視点融合型クラスタリング検索エンジンの開発と評価について
- 多様な視点からのブログ記事マイニングへの制約付きクラスタリングの適用
- 多視点融合型クラスタリング検索エンジンの開発と評価について
- 多様な視点からのブログ記事マイニングへの制約付きクラスタリングの適用
- An Interactive Annotation Framework for Image Retrieval (夏のデータベースワークショップDBWS2004)
- 分散 RDF 問合せ処理時の転送量減少のためのブルームフィルタの拡張
- インクリメンタルに更新可能なXPushマシン
- 創発的XMLの提案(XML, 夏のデータベースワークショップDBWS2005)
- インクリメンタルに更新可能なXPushマシン(ストリームデータ2, 夏のデータベースワークショップDBWS2005)
- 創発的XMLの提案(XML, 夏のデータベースワークショップ2005)
- インクリメンタルに更新可能なXPushマシン(ストリームデータ2, 夏のデータベースワークショップ2005)
- 関係データベース上の階層関係を持つ妥当なXMLビューの設計法
- P2Pにおける静的負荷分散方式の提案(P2P)(夏のデータベースワークショップDBWS2004)
- Galois' Lattices as a Classification Technique for Image Retrieval
- 編集にあたって
- 特集「情報融合」に向けて(情報融合)
- 編集にあたって
- 編集にあたって
- 編集にあたって
- 特集「情報融合」に向けて(情報融合)
- 編集にあたって
- 編集にあたって
- 編集にあたって
- 特集「情報融合」に向けて
- 編集にあたって
- 編集にあたって
- 編集にあたって
- 編集にあたって
- D-8-4 ウェブ上の類似画像を用いたメタデータの推定と画像検索結果提示への適用(D-8.人工知能と知識処理,一般セッション)
- SSDを用いたオブジェクトベース・ストレージデバイスのI/O性能制御
- 撮影状況メタデータと画像低次特徴量を用いた画像検索結果提示手法の検討
- インクリメンタルに更新可能な状態遷移表を用いたXPushマシン
- Webサーバ・ブラウザ間におけるXMLストリーム通信の実装
- インメモリDBへの適用に向けた実用的なロックフリーハッシュテーブル
- 衛星画像とWeb情報の統合的な利活用手法の提案(e-ScienceとData Intensive Science,e-ScienceとData Intensive Science及び一般)
- 画像検索結果のクラスタリングを目的とした類似画像からのメタデータ推定手法の検討(「Webインテリジェンス」及び一般)
- 分散RDFデータベースに関する研究(jDBワークショップ)
- 分散RDFデータベース応用のためのグリッド基盤に基づくミドルウェアの実現
- データベース2.0あるいはデータベースシステム研究会の今(研究会千夜一夜)
- タプル再分散不要の並列データベース構成法 (データベース Vol.4 No.4)
- MapReduceによる確率的勾配降下法を用いた広告クリック率予測の実践
- Built-In Microplanar Lens for Light Coupling to Two-Dimensional Photonic Crystal Waveguide
- ICDE2005
- 文脈的なつながりを考慮したツイート群の効果的な抽出・提示手法の実現
- 高解像度フォトモザイク生成のための並列分散画像検索手法(マルチメディアDB,データ工学と情報マネジメント論文)