複数機械学習処理におけるMapReduce最適化(分散データ処理,<特集>データ工学と情報マネジメント論文)
スポンサーリンク
概要
- 論文の詳細を見る
MapReduceは大規模データの分散バッチ処理を実現する実践的なフレームワークであり,そのJava実装であるHadoopは多くの企業において導入され実際に活用されている.機械学習アルゴリズムをHadoop上で動作させることによって,単純な統計解析よりも有益な知識を得る分析処理が注目されつつある.しかしMapReduceを利用した機械学習は,処理結果の最適化のためにアルゴリズムに事前に与えるハイパパラメータ値が異なる複数処理を要するので,コストが大きい.そこで我々は機械学習のハイパパラメータ調整に伴う複数処理を透過的に共有化し,総処理時間を削減するための新しいフレームワークを考案した.本フレームワークは(1)複数のMapReduceジョブから自動的に共有可能な部分を見つけ出すことで共有可能な範囲を最大化し,(2)見つけた共有範囲から共有実行プランを生成し,それに従ってMapReduceジョブを実行することで総処理量を削減する,という二つの特徴をもつ.3種類の機械学習アルゴリズムにおいて,我々のフレームワークが透過的に共有化を実現し,処理量削減の効果を確認した.
- 2013-05-01
著者
関連論文
- XMLデータの管理とストリーム処理に関する技術(データ工学論文)
- XMLデータの要約情報を用いた高速なXPath処理方法(問合せ処理,データ工学論文)
- インスタンス移動に基づく最適化可能DBMS
- 高速ORDBMS LiteObjectの設計と実装
- 画像検索処理における問い合わせ言語への要求
- インスタンスの機能拡張が可能な継承モデル
- 2者間マッチングにおけるコストベースの最適化手法
- XMLストリーム処理 : XPath評価からSVGレンダリングまで(オフィスにおけるデジタルドキュメント/コンテンツ管理技術及び一般)
- XMLストリーム処理 : XPath評価からSVGレンダリングまで(オフィスにおけるデジタルドキュメント/コンテンツ管理技術及び一般)
- D-4-10 クエリ包含キャッシュの利用によるクエリ処理(D-4. データ工学,一般セッション)
- 変換結果スキーマ指向のXML変換(コンテンツ処理)
- 変換結果スキーマ指向のXML変換
- オブジェクト進化を実現するクラスベースのオブジェクト指向データベース設計法
- 動的制約分析によるOODB設計法
- データベース最前線(9)多次元空間索引と画像・音楽の内容検索
- MapReduceを用いた大規模データ分析の取り組み (特集 オープンソースのクラウド・ビッグデータ基盤技術)
- ネットワーク構造に対するコミュニティの高速抽出手法(ネットワークコミュニティ分析,データ工学と情報マネジメント論文)
- 複数機械学習処理におけるMapReduce最適化(分散データ処理,データ工学と情報マネジメント論文)
- 集約処理を用いたMapReduce最適化手法の提案と実装
- マルチテナント環境におけるI/O性能保証方式の提案