広域分散ファイルシステムGfarm上でのMapReduceを用いた大規模分散データ処理
スポンサーリンク
概要
- 論文の詳細を見る
MapReduce のための分散ファイルシステムとして Google File System や HDFS (Hadoop Distributed File System) が使われているが,それらのファイルシステムは特定 API によるストリーミングアクセスを前提とし,POSIX の要件を緩和している.このため MapReduce 以外のプログラムからそれらのファイルシステムを直接使用することが困難であり,MapReduce 処理をするためにそれらのファイルシステムにインポートして,他のプログラムで利用するために結果をエクスポートするなど,コピーが必要なことが多い.この問題を解決するために本研究では HDFS の代わりに POSIX 準拠の API を持った広域分散ファイルシステム Gfarm を使うことを提案し,Gfarm 上で MapReduce 処理を可能にするための Hadoop-Gfarm プラグインを設計し評価する.マイクロベンチマークにおいて,Gfarm は HDFS より約 30% 高い書き込み性能を示し,読み込みはほぼ同程度の性能であった.また,grep,sort などの単純な MapReduce アプリケーションにおいて Gfarm と HDFS は同程度の性能であった.提案手法を使えば性能を低下させることなく,POSIX 準拠の API を使え,無駄なデータの移動やコピーを減らすことができる.
- 2010-07-27
著者
-
建部 修見
筑波大学大学院システム情報工学研究科
-
太田 一樹
東京大学大学院情報理工学系研究科
-
三上 俊輔
筑波大学
-
太田 一樹
Preferred Infrastructure, Inc.
-
建部 修見
筑波大学計算科学研究センター
-
建部 修見
筑波大学
-
太田 一樹
Preferred Infrastructure Inc.
関連論文
- 大規模P2Pグリッドでの大容量コンピューティングのためのスケーラブルなプログラミング環境の検討(HPC-7 : 分散環境(1))
- ファイルサーバー独立な並列ファイルキャッシュ機構(ファイルシステム,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 並列ファイル転送のためのスケジューリングアルゴリズム(ファイルシステム,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 並列ファイル転送のためのスケジューリングアルゴリズム (計算機アーキテクチャ・ハイパフォーマンスコンピューティング・「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- グリッドデータファームによる太陽地球系物理分野における分散データ型データインテンシブ処理モデルの構築と評価
- 広域ファイルシステムにおける分散メタデータサーバの検討(並列/分散アーキテクチャ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- T2K筑波システムにおけるLinpack性能評価(HPC-4:性能評価,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- UDPによるファイアウォール越えを用いたP2Pオーバーレイネットワーク(HPC-7 : 分散環境(1))
- マルチコアクラスタ向け並列ファイルシステムアーキテクチャ(HPC-13:ファイルシステム,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- Grid Datafarmにおけるスケジューリング・複製手法の性能評価(グリッド基盤ソフト)
- ペタバイトスケールデータインテンシブコンピューティングのためのGrid Datafarmアーキテクチャ
- Grid Datafarmにおけるスケジューリング・複製手法の性能評価
- Grid環境における大規模クラスタ向けジョブマネージメントアーキテクチャの実装及び性能評価
- 広域大規模データ解析のためのGrid Datafarmアーキテクチャ
- ヘテロなクラスタ環境における並列LINPACKの最適化
- 3ZL-4 仮想IPアドレスを用いたプライベートネットワーク内のノードへの透過的アクセス(情報爆発時代における安全,安心ネットワーク技術,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- プライベートネットワーク内のノードをサーバとして外部に公開するための機構(HPC-15 : ネットワーク)
- 遠隔ファイルアクセスにおけるアクセスパターンと遅延の影響
- 遠隔ファイルアクセスにおけるアクセスパターンと遅延の影響
- PCクラスタ間ファイル複製スケジューリング
- クラウドにおける高性能ファイルサービスの検討
- 広域分散ファイルシステムGfarm上でのMapReduceを用いた大規模分散データ処理
- Grid環境における大規模クラスタ向けジョブマネージメントアーキテクチャの実装及び性能評価
- GNU MPを用いたFortranコンパイラomf77の多倍精度浮動小数拡張
- GNU MPを用いたFortranコンパイラomf77の多倍精度浮動小数拡張
- 並列プログラム自動最適化ツールTEA Expertの実並列計算機における評価
- 計算素粒子物理学分野の国際データグリッドILDGと国内グリッドJLDG(グリッドI)
- ウェーブフロント型並列処理における分散メモリ型並列計算機の通信機構の評価 (並列処理)
- リモートメモリ書き込みを用いたMPIの効率的実装 (並列処理)
- 広域ファイルシステムHGFSのための分散メタデータサーバの実装と性能評価
- 広域ファイルシステムにおける分散メタデータサーバの検討(並列/分散アーキテクチャ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 広域分散ファイルシステムGfarmのMPI-IOの実装と評価
- ファイルキャッシュシステムの有効性向上に向けた科学技術計算アプリケーションのI/O特性評価
- マルチグリッド環境における効率的な監視システムに関する研究
- XMLデータを対象としたファセット検索インタフェースの生成(セッション1,XML応用技術特集および一般)
- Network Enabled ServerのWorld-wide Gridにおける性能
- 高性能並列計算用ネットワークRHiNET-1の実装と評価
- 高性能並列計算用ネットワークRHiNET-1の実装と評価
- 広域分散ファイルシステム Gfarm 上での MapReduce を用いた大規模分散データ処理
- Grid RPCにおける広域データ管理レイヤの利用(グリッド)
- 1ZC-2 クラウドコンピューティングにおける高性能ファイルシステムの検討(クラウドコンピューティング,学生セッション,ネットワーク,情報処理学会創立50周年記念)
- VLANを用いた複数パスを持つクラスタ向きL2 Ethernetネットワーク(ネットワーク)
- VLANを用いた複数パスを持つL2 Ethernetネットワーク(高性能システム)
- VLANを用いた複数パスを持つL2 Ethernetネットワーク
- グリッドデータファームとGNET-1による日米間高速ファイル複製(グリッド基盤システム)
- AISTスーパークラスタP-32のLinpackによる性能評価(HPC-8 : クラスタ)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
- e-サイエンス推進のための広域分散ファイルシステムの適用と評価
- 2L-2 MapReduceにおけるファイルシステムの性能評価(並列システムソフトウェア,学生セッション,アーキテクチャ,情報処理学会創立50周年記念)
- RHiNETによる共有メモリプログラミングのサポート
- PC間ネットワークによる共有アドレス空間を持つ並列処理システム
- 遠隔メモリ操作に基づく高速メッセージパッシングライブラリFMPLの設計と開発(並列処理)
- 分散並列処理による巨大分子系の電荷計算
- 並列システム性能の視覚的解析とその評価
- ファンの振動が計算機内のハードディスクに与える影響について(アーキテクチャ)
- クラスタノードの高密度実装における振動等の問題について(ARC-4:並列処理応用と実装技術)(2003年並列/分散/協調処理に関する『松江』サマー・ワークショップ(SWoPP松江2003))
- PVFS-PMの実装と性能評価
- クラスタ間高速ファイル転送方式の提案と評価
- 並列ファイル転送のためのスケジューリングアルゴリズム(ファイルシステム,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 広域分散ファイルシステムGfarm v2の実装と評価(グリッドI)
- 広域仮想ファイルシステムGfarm v2の設計と実装(HPC-7 : グリッド(2))(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
- 広域ファイルシステムのための分散メタデータサーバの設計
- AISTスーパークラスタ構想
- PC間ネットワークによる共有アドレス空間を持つ並列処理システム
- PVFS-NFS proxyの実装と性能評価(ストレージシステムと入出力)
- PVFSの性能評価とプラットフォームの検討
- 広域分散ファイルシステムGfarmのMPI-IOの実装
- リソースネームスペース管理サービスの負荷分散手法の提案(HPC-6:グリッド,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- 6ZJ-4 リソースネームスペース管理サービスの実装(情報爆発時代における並列分散処理技術,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- ファイルサーバー独立な並列ファイルキャッシュ機構(ファイルシステム,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 広域ファイルシステムにおける分散メタデータサーバの検討 (計算機アーキテクチャ・ハイパフォーマンスコンピューティング・「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- SNMP によるクラスタ性能計測手法の検討と評価
- Grid Datafarmにおける天文学データ解析ツールの性能評価(HPC-12 : グリッド(3))(2003年並列/分散/協調処理に関する『松江』サマー・ワークショップ(SWoPP松江2003))
- 演算加速装置に基づく超並列クラスタHA-PACSによる大規模計算科学
- Non-blocking RPCを用いた遠隔ファイルアクセスの最適化
- クラウドにおける大規模ストレージシステムの必要性とその検討〜Gfarm v2.4を拡張したEB級システム〜
- 広域分散環境を提供するHPCIシステムソフトウェア基盤の設計概要と共有ストレージ構築
- 耐障害性を高めた分散ストレージシステムの開発とその評価
- 分散ファイルシステムの性能監視とボトルネック特定
- 分散ファイルシステムにおけるメタデータサーバの冗長化手法の検討
- Cephのメタデータサーバの冗長性の調査
- MPI-IO/Gfarmにおけるデータ配置を考慮したプロセススケジューリングの検討
- ワークフロー実行中のデータ移動を最小化するタスク配置方式
- Non-blocking RPCを用いた遠隔ファイルアクセスの実装と性能評価
- Non-blocking RPCを用いた遠隔ファイルアクセスの実装と性能評価
- Non-blocking RPCを用いた遠隔ファイルアクセスの実装と性能評価
- Non-blocking RPCを用いた遠隔ファイルアクセスの実装と性能評価
- MPI-IO/Gfarm:分散ファイルシステムGfarmのためのMPI-IOの実装と評価
- PCクラスタにおけるTDLを用いたOpenMPコンパイラ
- 高速なストレージにおけるファイルシステムの調査と検討
- 並列分散ワークフローシステムPwrakeによる大規模データ処理(宇宙科学情報解析論文誌 第一号)
- 高性能分散計算環境のための認証基盤の設計
- RDMAによる低オーバヘッドファイルアクセスと冗長記録
- RDMAによる低オーバヘッドファイルアクセスと冗長記録
- Gfarm/PwrakeによるNICTサイエンスクラウドの並列分散処理技法
- UDTを用いた並列ファイル転送技術
- NICTサイエンスクラウド : 科学研究用クラウドの有効性と基本性能(セッション1:ビッグデータ・サイエンスクラウド,「Webサービス及びクラウドの構築・運用・管理」及び一般)
- NICTサイエンスクラウド : 広域分散ファイルシステムのセキュリティ機能拡張の要件(セッション1:ビッグデータ・サイエンスクラウド,「Webサービス及びクラウドの構築・運用・管理」及び一般)
- UDTを用いた並列ファイル転送ツール基本性能評価(R&Eネットワークを活用した研究開発実証実験,ネットワーク研究開発テストベッド運用・利用,一般)
- 科学研究用クラウドシステム(NICTサイエンスクラウド)の提案(宇宙科学情報解析論文誌 第三号)
- NICTサイエンスクラウドによる大規模シミュレーションデータ分散可視化処理(宇宙科学情報解析論文誌 第三号)