並列分散ワークフローシステムPwrakeによる大規模データ処理(宇宙科学情報解析論文誌 第一号)
スポンサーリンク
概要
- 論文の詳細を見る
大規模な科学データ処理のため,計算機クラスターによる高性能な並列処理が必要とされている.特別な並列プログラミングを必要とせずにこれを実現するため,私たちはワークフローシステムPwrake を開発している.Pwrake はRake というビルドツールをベースにしており,これによりプログラミング言語を活用した高度な科学ワークフロー定義が可能となる.Rake に並列分散機能およびGfarm ファイルシステムのサポート機能を拡張したものがPwrake である.Pwrake の性能評価のため,天文画像処理ソフトウェアMontage のワークフローをRake で記述し,Pwrake を用いて実行時間を測定した.Gfarm で実行した結果はスケーラブルな性能向上を示し,ローカルストレージの利用を高めることで性能が14% 向上した.さらに2 拠点のクラスタを用いた測定においてもスケーラブルな性能向上を達成した.
著者
-
建部 修見
筑波大学計算科学研究センター
-
建部 修見
筑波大学計算科学研究センター : 独立行政法人科学技術振興機構 Crest
-
田中 昌宏
筑波大学計算科学研究センター : 独立行政法人科学技術振興機構 Crest
-
田中 昌宏
筑波大学計算科学研究センター
関連論文
- 大規模P2Pグリッドでの大容量コンピューティングのためのスケーラブルなプログラミング環境の検討(HPC-7 : 分散環境(1))
- 並列ファイル転送のためのスケジューリングアルゴリズム (計算機アーキテクチャ・ハイパフォーマンスコンピューティング・「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- T2K筑波システムにおけるLinpack性能評価(HPC-4:性能評価,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- UDPによるファイアウォール越えを用いたP2Pオーバーレイネットワーク(HPC-7 : 分散環境(1))
- Grid Datafarmにおけるスケジューリング・複製手法の性能評価(グリッド基盤ソフト)
- ペタバイトスケールデータインテンシブコンピューティングのためのGrid Datafarmアーキテクチャ
- Grid Datafarmにおけるスケジューリング・複製手法の性能評価
- Grid環境における大規模クラスタ向けジョブマネージメントアーキテクチャの実装及び性能評価
- 広域大規模データ解析のためのGrid Datafarmアーキテクチャ
- ヘテロなクラスタ環境における並列LINPACKの最適化
- プライベートネットワーク内のノードをサーバとして外部に公開するための機構(HPC-15 : ネットワーク)
- 広域分散ファイルシステムGfarm上でのMapReduceを用いた大規模分散データ処理
- Grid環境における大規模クラスタ向けジョブマネージメントアーキテクチャの実装及び性能評価
- GNU MPを用いたFortranコンパイラomf77の多倍精度浮動小数拡張
- GNU MPを用いたFortranコンパイラomf77の多倍精度浮動小数拡張
- 並列プログラム自動最適化ツールTEA Expertの実並列計算機における評価
- 計算素粒子物理学分野の国際データグリッドILDGと国内グリッドJLDG(グリッドI)
- ウェーブフロント型並列処理における分散メモリ型並列計算機の通信機構の評価 (並列処理)
- リモートメモリ書き込みを用いたMPIの効率的実装 (並列処理)
- マルチグリッド環境における効率的な監視システムに関する研究
- XMLデータを対象としたファセット検索インタフェースの生成(セッション1,XML応用技術特集および一般)
- Network Enabled ServerのWorld-wide Gridにおける性能
- 高性能並列計算用ネットワークRHiNET-1の実装と評価
- 高性能並列計算用ネットワークRHiNET-1の実装と評価
- Grid RPCにおける広域データ管理レイヤの利用(グリッド)
- VLANを用いた複数パスを持つクラスタ向きL2 Ethernetネットワーク(ネットワーク)
- VLANを用いた複数パスを持つL2 Ethernetネットワーク(高性能システム)
- VLANを用いた複数パスを持つL2 Ethernetネットワーク
- グリッドデータファームとGNET-1による日米間高速ファイル複製(グリッド基盤システム)
- AISTスーパークラスタP-32のLinpackによる性能評価(HPC-8 : クラスタ)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
- e-サイエンス推進のための広域分散ファイルシステムの適用と評価
- 2L-2 MapReduceにおけるファイルシステムの性能評価(並列システムソフトウェア,学生セッション,アーキテクチャ,情報処理学会創立50周年記念)
- RHiNETによる共有メモリプログラミングのサポート
- PC間ネットワークによる共有アドレス空間を持つ並列処理システム
- 遠隔メモリ操作に基づく高速メッセージパッシングライブラリFMPLの設計と開発(並列処理)
- 分散並列処理による巨大分子系の電荷計算
- 並列システム性能の視覚的解析とその評価
- ファンの振動が計算機内のハードディスクに与える影響について(アーキテクチャ)
- クラスタノードの高密度実装における振動等の問題について(ARC-4:並列処理応用と実装技術)(2003年並列/分散/協調処理に関する『松江』サマー・ワークショップ(SWoPP松江2003))
- PVFS-PMの実装と性能評価
- 広域仮想ファイルシステムGfarm v2の設計と実装(HPC-7 : グリッド(2))(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
- AISTスーパークラスタ構想
- PC間ネットワークによる共有アドレス空間を持つ並列処理システム
- PVFS-NFS proxyの実装と性能評価(ストレージシステムと入出力)
- PVFSの性能評価とプラットフォームの検討
- 広域ファイルシステムにおける分散メタデータサーバの検討 (計算機アーキテクチャ・ハイパフォーマンスコンピューティング・「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- SNMP によるクラスタ性能計測手法の検討と評価
- Grid Datafarmにおける天文学データ解析ツールの性能評価(HPC-12 : グリッド(3))(2003年並列/分散/協調処理に関する『松江』サマー・ワークショップ(SWoPP松江2003))
- 演算加速装置に基づく超並列クラスタHA-PACSによる大規模計算科学
- Non-blocking RPCを用いた遠隔ファイルアクセスの最適化
- クラウドにおける大規模ストレージシステムの必要性とその検討〜Gfarm v2.4を拡張したEB級システム〜
- 広域分散環境を提供するHPCIシステムソフトウェア基盤の設計概要と共有ストレージ構築
- 耐障害性を高めた分散ストレージシステムの開発とその評価
- 分散ファイルシステムにおけるメタデータサーバの冗長化手法の検討
- Cephのメタデータサーバの冗長性の調査
- MPI-IO/Gfarmにおけるデータ配置を考慮したプロセススケジューリングの検討
- ワークフロー実行中のデータ移動を最小化するタスク配置方式
- Non-blocking RPCを用いた遠隔ファイルアクセスの実装と性能評価
- Non-blocking RPCを用いた遠隔ファイルアクセスの実装と性能評価
- Non-blocking RPCを用いた遠隔ファイルアクセスの実装と性能評価
- Non-blocking RPCを用いた遠隔ファイルアクセスの実装と性能評価
- MPI-IO/Gfarm:分散ファイルシステムGfarmのためのMPI-IOの実装と評価
- PCクラスタにおけるTDLを用いたOpenMPコンパイラ
- 高速なストレージにおけるファイルシステムの調査と検討
- 並列分散ワークフローシステムPwrakeによる大規模データ処理(宇宙科学情報解析論文誌 第一号)
- 高性能分散計算環境のための認証基盤の設計
- RDMAによる低オーバヘッドファイルアクセスと冗長記録
- RDMAによる低オーバヘッドファイルアクセスと冗長記録
- Gfarm/PwrakeによるNICTサイエンスクラウドの並列分散処理技法
- UDTを用いた並列ファイル転送技術
- NICTサイエンスクラウド : 科学研究用クラウドの有効性と基本性能(セッション1:ビッグデータ・サイエンスクラウド,「Webサービス及びクラウドの構築・運用・管理」及び一般)
- NICTサイエンスクラウド : 広域分散ファイルシステムのセキュリティ機能拡張の要件(セッション1:ビッグデータ・サイエンスクラウド,「Webサービス及びクラウドの構築・運用・管理」及び一般)
- UDTを用いた並列ファイル転送ツール基本性能評価(R&Eネットワークを活用した研究開発実証実験,ネットワーク研究開発テストベッド運用・利用,一般)
- 科学研究用クラウドシステム(NICTサイエンスクラウド)の提案(宇宙科学情報解析論文誌 第三号)
- NICTサイエンスクラウドによる大規模シミュレーションデータ分散可視化処理(宇宙科学情報解析論文誌 第三号)
- NICTサイエンスクラウド : 地球科学・宇宙科学ビッグデータ分散処理技術(テーマセッション,大規模データとパターン認識・メディア理解,地球をとらえる,CEATEC連携)
- NICTサイエンスクラウド : 地球規模観測ネットワークからのデータ収集・データベース・データ処理(テーマセッション,大規模データとパターン認識・メディア理解,地球をとらえる,CEATEC連携)