WAN環境におけるHadoop高速化に関する一考察(新世代・次世代ネットワーク,ネットワークとシステムの仮想化,仮想化環境の管理・監視,オーバーレイ,IPv6ネットワーク,フォトニックネットワーク及び一般)
スポンサーリンク
概要
- 論文の詳細を見る
近年、世界中で日々膨大な量のデータが蓄積されるようになった。そのため、Hadoop等の大規模データ解析の分野において、今後、WANに分散した全てのデータを一箇所のデータセンタへ集約することが困難になり、データをWAN上に分散させたまま広域でジョブを実行せざるを得なくなる可能性がある。しかし、広域向けに最適化したトランスポートプロトコルを利用する方式では既存のファイアウォールを利用できないデメリットが存在するため、一般的なトランスポートプロトコルであるTCPのWAN環境において性能劣化なくHadoopを実行させる必要がある。われわれの評価系においては、チューニング効果の一例としてソケットバッファやインタフェースキュー長、HDFSのブロックサイズを拡張した結果、パケットロス率がない条件であれば広域でのHadoopジョブのShuffleフェーズのスループットが8.7倍改善し、WAN環境における性能劣化を小さく抑えることができた。
- 一般社団法人電子情報通信学会の論文
- 2012-07-12