集約処理を用いたMapReduce最適化手法の提案と実装
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,MapReduceで行う処理のうち,部分集約が可能な処理を高速化する手法を示す.部分集約ができる処理に対して,既存研究では集約処理に特化した処理系を新たに作成することにより高速化を行っていた.しかし,これらの手法はMapReduceの仕組みを大幅に変更する必要があることから,Hadoopに組み込むのは困難であった.そこで本研究では,Hadoopへの実装コストを低く抑え,耐故障性を担保しつつ高速化を行うMap Multi-Reduceの提案を行う.Map Multi-Reduceは,MapReduceに計算機ごとの集約処理を行う機能を追加した,MapReduceの拡張版である.提案手法の実装を行うにあたり行ったHadoopへの変更量は約800行と小さい.このように少ない変更量にもかかわらず,実験により,300GBのWordCountを行う際にMap処理とReduce処理間のデータの受け渡しを削減し,処理速度が1.5倍になることを確認した.
- 2013-09-25
著者
-
鬼塚 真
NTTソフトウェアイノベーションセンタ
-
盛合 敏
NTTソフトウェアイノベーションセンタ
-
小沢 健史
NTTソフトウェアイノベーションセンタ
-
福本 佳史
NTTソフトウェアイノベーションセンタ
-
福本 佳史
日本電信電話株式会社NTTソフトウェアイノベーションセンタ
-
鬼塚 真
NTTソフトウェアイノベーションセンタ,機械学習・データ科学センタ
関連論文
- MapReduceを用いた大規模データ分析の取り組み (特集 オープンソースのクラウド・ビッグデータ基盤技術)
- PJoin: MapReduceにおける高速ジョイン処理
- ソーシャルサーチのための効率的な検索アルゴリズムの提案
- 複数機械学習処理におけるMapReduce最適化(分散データ処理,データ工学と情報マネジメント論文)
- 集約処理を用いたMapReduce最適化手法の提案と実装
- 3 震災時におけるソーシャルサーチの活用に関する分析(III-4 災害情,セッションIII,自由報告)
- 時々刻々と成長するグラフのための直径モニタリング
- マルチテナント環境におけるI/O性能保証方式の提案
- 高信頼化と高性能化を実現するデータベースクラスタの提案と評価(ディペンダビリティ,並列/分散/協調とディペンダブルコンピューティング及び一般)