SMPクラスタ上でのリモートメモリ転送を用いた通信と計算のオーバーラップによる性能改善
スポンサーリンク
概要
- 論文の詳細を見る
SMPクラスタは高性能計算のためのプラットフォームとして広がりつつある.各SMPノードのプロセッサ性能が向上するにつれ, ノード間通信のコストを隠すことが, SMPクラスタで高い性能を得るためにより重要となる.我々はリモートメモリ転送を用いたノード間通信と計算とをオーバーラップさせることにより, SMPクラスタ上でのプログラムの実行性能を向上させた.我々のリモートメモリ転送機能は低オーバーヘッドであり, ホストプロセッサに負荷を与えないため, 通信と計算をオーバーラップさせることにより性能を大きく向上させることが可能となる.本稿では通信と計算のオーバーラップの方法およびその結果に関して報告する.我々の実験では, いくつかのベンチマークにおいてノード間通信にかかる時間のほとんどが隠蔽され, 実行時間は最大で24%短縮された.
- 一般社団法人情報処理学会の論文
- 1998-08-06
著者
-
佐藤 三久
新情報処理開発機構
-
久保田 和人
新情報処理開発機構 並列応用東芝研究室
-
田中 良夫
新情報処理開発機構
-
松田 元彦
新情報処理開発機構
-
松田 元彦
産業技術総合研究所 グリッド研究センター
-
久保田 和人
株式会社東芝研究開発センター
-
久保田 和人
新情報処理開発機構
関連論文
- ソフトウェアによる精密ペーシング方式を用いたTCP通信性能の改善((フォトニック)IPネットワーク技術, (光)ノード技術, WDM技術, 一般)
- Cluster-enabled OpenMP : ソフトウェア分散共有メモリシステムSCASH上のOpenMPコンパイラ
- メタレベル機能によるクラスライブラリ最適化手法(並列処理)
- メタレベル機能が支援するハイパフォーマンスオブジェクト指向計算
- メタレベル機能による並列プログラミング
- 2000-HPC-82-14 ソフトウエア分散共有メモリシステムSCASH上のOpenMPコンパイラ
- PCクラスタを用いた決定木生成
- 決定木の並列化とその評価
- 2000-HPC-81-13 Network Enabled Server System の設計
- グローバルコンピューティングのためのスケジューリングフレームワーク(並列処理)
- グローバルコンピューティングシステムNinfを用いた数値流体解析コンポーネントnetCFD
- Javaによる大域的並列計算環境Ninflet (並列処理)
- グローバルコンピューティングシステムのシミュレーションによる評価 (並列処理)
- Ninfによる遠隔計算資源アクセスシステムの構築とグローバルコンピューティングシステムの性能評価
- 広域計算システムNinfにおけるユーザ認証
- 複数クライアントによるLAN/WANでのNinfの性能(並列処理)
- Ninfによる広域分散並列計算(並列処理)
- MPC++による様々な並列処理プログラミングスタイルのサポートとその性能
- Ninfによる広域分散並列計算
- ネットワーク数値情報システムNinf : マルチクライアント環境での性能
- 分散メモリ計算機用Ninf APIの実現に向けて
- ネットワーク数値情報ライブラリNinf : システム実装と評価
- Parallel STLによる並列プログラミング
- GridMPI^ Version 1.0の概要(HPC-10: 通信ライブラリ)
- グリッド上のコレクティブ通信アルゴリズム
- ストリーミング配信に対するソフトウェアペーシング方式の効果(有線/無線シームレスネットワーク,ネットワーク制御,無線通信一般)
- ギャップパケットを用いたソフトウェアによる精密ペーシング方式(ネットワーク)
- MPIライブラリと協調するTCP通信の実現(ネットワーク)
- IBM pSeriesにおけるGridMPIの実装と性能評価(通信ライブラリ, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2005))
- 超並列計算機のための同期処理機構とその評価
- ファイアウォールに対応したGlobusによる広域クラスタシステムの構築とその評価
- 2000-HPC-81-12 Firewellに対応したGlobusによる広域クラスタシステムの構築と性能評価
- GlobusにおけるResource Managerの試作 : グローバルコンピューティング環境の構築に向けて
- 並列プログラム自動最適化ツールTEA Expertの実並列計算機における評価
- 細粒度通信機構を持つ並列計算機EM-Xによる疎行列計算の性能評価
- 細粒度通信機構を用いたRadixソートの実行
- 行列演算ベンチマークを用いた並列計算機EM-Xの評価
- OpenMP向けコンパイラ支援ソフトウェアDSMにおける最適化コンパイル手法
- メモリバスアクセス率に基づくSMP-PCクラスタの性能評価
- SMPクラスタ向けOpenMPコンパイラ
- SMPクラスタ向けネットワーク・インタフェースAM通信 (並列処理)
- COMPaS : Pentium Proを用いたSMPクラスタとその評価 (並列処理)
- Ninfによる遠隔計算資源アクセスシステムの構築とグローバルコンピューティングシステムの性能評価
- Ninfによる遠隔計算資源アクセスシステムの構築とグローバルコンピューティングシステムの性能評価
- Matrix Clustering(21世紀のコンピュータセキュリティ技術) : CRM向けの新しいデータマイニング手法
- 決定木生成手法の並列化方式とその評価
- Matrix Clustering : CRM向けの新しいデータマイニング手法
- PCクラスタを用いた決定木生成
- リスト処理におけるオブジェクトの生存率に関する解析
- リスト処理とGCのCPU割当てを動的に決定する並列Lisp
- オブジェクトの生存率の理論的解析に基づいた世代別ガーベッジコレクション
- 並列GCを備えた並列Lispシステムの実装および評価
- Adaptive Garbage Collection : 実装とその評価
- SMPクラスタ向けネットワーク・インタフェース上AM通信
- SMPクラスタでの共有/分散融合プログラミング
- Knapsack問題における共有メモリ型/分散メモリ型並列計算機の性能比較
- 並列ごみ集めを備えた並列Lispによる実時間処理能力の評価
- オブジェクト指向Lisp EusLispへの並列GCの実装(並列・分散)
- オブジェクト指向Lisp EusLispへの並列GCの実装(並列・分散)
- 並列非圧縮性流体解析プログラムのオブジェクト指向言語による実装と評価
- C++テンプレート・ライブラリを用いた行列解法の並列化
- RHiNETによる共有メモリプログラミングのサポート
- PC間ネットワークによる共有アドレス空間を持つ並列処理システム
- SMP-PCクラスタにおけるOpenMP+MPIの性能評価
- SMP-PCクラスタにおけるOpenMP+MPIの性能評価
- 共有メモリPCクラスタにおけるハイブリッド並列プログラムの性能評価
- 並列システム性能の視覚的解析とその評価
- 並列システム性能の視覚的解析とその評価
- 並列システム性能の視覚的解析とその評価
- SMPクラスタにおけるコレスキー分解の並列化
- SMPクラスタ上でのリモートメモリ転送を用いた通信と計算のオーバーラップによる性能改善
- SMPクラスタCOMPaSの性能評価
- 並列プログラムデバッグのための可視化ツール
- 2000-HPC-82-13 OpenMP並列プログラムのデータフロー解析手法
- PC間ネットワークによる共有アドレス空間を持つ並列処理システム
- PC間ネットワークによる共有アドレス空間を持つ並列処理システム
- F01-(4) RWCP における計算機クラスタ技術
- グローバルコンピュ-ティングへの期待
- 並列処理に「難しい」並行処理は必要か
- 特集「並列処理」の編集にあたって
- ハイパフォーマンスアプリケーションにおけるC++ STLを用いたプログラミング
- 細粒度並列アーキテクチャ用SISALコンパイラにおける並列粒度調整方式(並列処理)
- 並列粒度調整機能を組み込んだSISALコンパイラの設計と実装
- 光インタコネクションネットワークを用いたコンピューテングクラスタの構想
- Omni OpenMPコンパイラの性能評価
- OpenMP向けコンパイラ支援ソフトウェアDSM
- OpenMP向けコンパイラ支援ソフトウェアDSMの性能評価
- Cenju-4の分散共有メモリ機構を用いたOmni OpenMPコンパイラ
- Omni OpenMPコンパイラの性能評価
- Omni OpenMPコンパイラの性能評価
- OpenMPコンパイラの試作と評価
- Windows NTクラスタ上でのMyrinetによる通信の実現
- C++テンプレートを使ったデータ並列ライブラリの効率化手法
- 並列プログラム可視化ツール
- 大規模データ並列プログラムの性能予測手法とNPB 2.3の性能評価 (並列処理)
- 高精度大規模並列プログラムシミュレーション環境によるNPBの挙動解析
- インスツルメンテーションに基づく性能評価環境の高精度化
- テンプレート・クロージャによる並列アレイ・ライブラリ
- Collective通信を用いたデータ並列プログラムの性能予測
- 並列アルゴリズムにおけるCollective通信の性能比較