Tightly Coupled Acceleratorsアーキテクチャに基づくGPUクラスタの構築と性能予備評価
スポンサーリンク
概要
- 論文の詳細を見る
GPUなどの演算加速装置を用いたクラスタがHPCシステム向けに広く使われている.しかしこのようなクラスタでは,ノード間をまたがる演算加速装置間の通信において,CPUを介した複数回のメモリコピーが必要であった.このレイテンシ増加はアプリケーション性能を著しく低下させる.そこで,筑波大学計算科学研究センターでは,大規模GPUクラスタであるHA-PACSとしてコモディティ技術による大規模GPUクラスタ部分に加え,ノード間接続およびGPU間接続に,レイテンシとバンド幅の改善を目指した独自開発の密結合並列演算加速機構TCA(Tightly Coupled Accelerators)の開発を行っている.本論文では,TCAを実現する通信機構PEACH2とその基本転送性能の評価について述べる.さらにTCAを用いたアプリケーションの予備評価として,隣接2ノード間のping-pong通信における性能を測定し,従来の通信機構と比較した.その結果,ノードをまたぐCPUメモリ間転送では,最小レイテンシは0.9μsを実現し,最大バンド幅は3.5GB/sと,理論ピークの96%の性能が得られた.ノードをまたぐGPUメモリ間転送においては,最小で2.3μsのレイテンシを実現し,短いメッセージ長ではCUDAによるノード内GPU間転送を超える性能を示した.
- 2013-10-30
著者
-
朴 泰祐
筑波大学計算科学研究センター
-
塙 敏博
筑波大学計算科学研究センター
-
佐藤 三久
筑波大学計算科学研究センター
-
児玉 祐悦
産業技術総合研究所情報技術研究部門
-
Hanawa T
筑波大学大学院システム情報工学研究科|筑波大学計算科学研究センター
-
児玉 祐悦
筑波大学計算科学研究センター
関連論文
- 大規模クラスタT2K-Tsukubaと大気大循環モデルコード実行(大規模数値計算の現状と今後の展開-その2)
- ネットワークテストベッドGtrcNET-10p3におけるパケットキャプチャおよびルータ機能の実装(応用2)
- 10GbE対応ネットワークテストベッドGtrcNET-10の構成と評価(HPC-6: 高速ネットワークとその応用)
- IPフロー単位のトラフィック制御設定の自動化機構(次世代・新世代ネットワークアーキテクチャ,トラヒック計測・制御,サービス品質,ネットワーク管理,一般)
- 10ギガビットイーサネットを用いた精密なパケットスケジューリング機構の開発(ポストIPネットワーキング,ネットワークモデル,インターネットトラヒック,TCP/IP,マルチメディア通信,ネットワーク管理,リソース管理,プライベートネットワーク,NW安全性及び一般)
- 精密な帯域共有とトラフィック隔離を実現するパケットスケジューリング方式(ネットワーク,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 2000-ARC-139-26 MIPSベースマルチレッドプロセッサのFPGAによる実装と評価
- トラフィックの性質情報に基づいた動的ネットワーク選択手法 (ネットワークシステム)
- 演算加速機構を持つオンチップメモリプロセッサの電力性能評価(ARC-3 : 性能評価およびモデリング,2007年並列/分散/協調処理に関する『旭川』サマー・ワークショップ(SWoPP旭川2007))
- ソフトウェアによる精密ペーシング方式を用いたTCP通信性能の改善((フォトニック)IPネットワーク技術, (光)ノード技術, WDM技術, 一般)
- 大規模SMPクラスタにおけるOpenMP/MPIハイブリッドNPB,RSDFTの評価(並列/分散コンピューティング,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 高性能計算 : システムと応用の良き仲人を目指して(HPC研究会)(研究会千夜一夜)
- 高性能・耐故障マルチリンクEthernet結合システムのNFSへの適用と評価(クラスタとグリッド技術)
- ユーザ透過に利用可能な耐故障・高性能マルチリンクEthernet結合システム(クラスタと省電力技術)
- マルチパスネットワークを持つPCクラスタにおける動的経路制御システム(クラスタシステム)
- ディペンダブルな組込みシステムに適した省電力高性能通信機構(通信とグリッドII)
- tagged-VLANを用いたPCクラスタ向けマルチパスネットワークにおける動的ルーティング(HPC-13 : 通信II)
- OpenMPを用いた並列ベンチマークプログラムによる組込み向けマルチコアプロセッサの評価(ARC-5:並列処理1,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- C452 複雑地形・都市を対象とした並列LESモデルの開発(大気境界層II,一般口頭発表)
- 組込み機器向けon-chip/off-chipコア間通信機構の実装と評価 (ディペンダブルコンピューティング)
- 組込み機器向けon-chip/off-chipコア間通信機構の実装と評価 (コンピュータシステム)
- オンチップメモリプロセッサでの演算加速機構の検討(プロセッサ・アーキテクチャ(2),「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- 高性能計算のための低電力・高密度クラスタMegaProto(HPCハードウェア)
- PCクラスタにおけるDVS制御による電力性能の最適化(ARC-3: 低電力アーキテクチャ1, 2005年並列/分散/協調処理に関する『武雄』サマー・ワークショップ(SWoPP武雄2005)-研究会・連続同時開催-)
- 高性能計算のための低電力・高密度クラスタMegaProto(クラスタと通信, 分散処理, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2005))
- 高性能計算のための低電力・高密度クラスタ MegaProto
- GridMPI^ Version 1.0の概要(HPC-10: 通信ライブラリ)
- 精密な帯域共有とトラフィック隔離を実現するパケットスケジューリング方式(ネットワーク,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- Crusoeがんばれ(インタラクティブ・エッセイ)
- 精密な帯域共有とトラフィック隔離を実現するパケットスケジューリング方式 (計算機アーキテクチャ・ハイパフォーマンスコンピューティング・「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- クラスタの温度分布について
- ソフトウェアによる精密ペーシング機構の提案と評価
- 高バンド幅高遅延ネットワークにおけるマルチパスを用いた高信頼通信手法の実現(ディペンダブルネットワーク・分散システム,ディペンダブルコンピューティング論文)
- グリッド上のコレクティブ通信アルゴリズム
- ストリーミング配信に対するソフトウェアペーシング方式の効果(有線/無線シームレスネットワーク,ネットワーク制御,無線通信一般)
- ギャップパケットを用いたソフトウェアによる精密ペーシング方式(ネットワーク)
- MPIライブラリと協調するTCP通信の実現(ネットワーク)
- IBM pSeriesにおけるGridMPIの実装と性能評価(通信ライブラリ, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2005))
- クラスタの温度分布について(クラスタと通信, 分散処理, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2005))
- IBM pSeries における GridMPI の実装と性能評価
- GridMPIのためのTCP/IP輻輳制御実装方式の検討(OS-3:ネットワーク)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
- 大規模SMPクラスタにおけるOpenMP/MPIハイブリッドNPB,RSDFTの評価(並列/分散コンピューティング,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- オンチップメモリプロセッサでの演算加速機構の検討(プロセッサ・アーキテクチャ(2),「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- マルチレール相互結合網における通信プロファイリングに基づく性能最適化
- トラフィック量に適応する非対称マルチリンクEthernetトランキング
- 分散メモリ向け並列言語XcalableMPコンパイラの実装と性能評価
- XcalableMPによるNAS Parallel Benchmarksの実装と評価
- LinuxのTCP/IP通信における高帯域高遅延ネットワーク上で性能低下を引き起こす通信中断の原因解析と改良 (インターネットコンファレンス2007論文集)
- GridMPI^の性能評価(HPC-6 : 通信ライブラリ)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
- 計算素粒子物理学分野の国際データグリッドILDGと国内グリッドJLDG(グリッドI)
- PACS-CSにおける隣接通信性能の高速化(HPC-13 : 通信II)
- PACS-CSのための高性能通信ライブラリインターフェイスの設計(HPC-12 : 大規模運用システム(2))
- リコンフィギュアラブルシステムREXへの並列計算機EM-Xの実装
- 大容量FPGAの応用によるマルチプロセッサエミュレーションシステムの評価
- 大容量FPGAの応用によるマルチプロセッサエミュレーションシステムの開発
- 大容量FPGAの応用によるマルチプロセッサエミュレーションシステムの開発
- 細粒度通信機構を持つ並列計算機EM-Xにおける共有メモリプログラムの効率的実行
- 2000-ARC-139-15 EM-XとMD Oneを統合化した粒子シミュレーション用並列計算機プロトタイプの構築
- 仮想マシンとSpecCデバイスモデルを統合したデバイス故障エミュレータの実現
- 演算加速機構を持つオンチップメモリプロセッサの検討と電力性能評価
- 科学技術計算用超並列クラスタPACS-CSの実装と基本性能評価(HPC-12 : 大規模運用システム(2))
- 大規模SMPクラスタにおけるOpenMP/MPIハイブリッドNPB,RSDFTの評価 (計算機アーキテクチャ・ハイパフォーマンスコンピューティング・「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 組込み機器向けon-chip/off-chipコア間通信機構の実装と評価
- 組込み機器向けon-chip/off-chipコア間通信機構の実装と評価
- 組込み機器向けon-chip/off-chipコア間通信機構の実装と評価
- 組込み機器向けon-chip/off-chipコア間通信機構の実装と評価
- 組込み機器向けon-chip/off-chipコア間通信機構
- 編集にあたって(平成20年度論文賞の受賞論文紹介)
- 高性能・耐故障マルチリンクEthernet結合システムの性能評価
- ユーザ透過に利用可能な高性能・耐故障マルチリンクEthernet結合システム
- XMLデータを対象としたファセット検索インタフェースの生成(セッション1,XML応用技術特集および一般)
- メモリバンド幅に着目したマルチコアノード上のアプリケーション最適化
- 複数Gigabit Ethernetを用いたPACS-CSのための高性能通信機構の設計と評価(ネットワーク)
- PACS-CSのためのEthernetを用いた高性能通信機構の設計(HPC-8: 高性能クラスタ)
- PGAS言語XcalableMPのmulti-node GPU向け拡張仕様の実装と評価
- 演算加速装置に基づく超並列クラスタHA-PACSによる大規模計算科学
- 並列プログラミング言語XcalableMPにおけるデータおよびループのユーザ定義分散のための拡張仕様
- 並列プログラミング言語XcalableMPによるMPI並列ライブラリインターフェースの検討
- スクリプト言語Xcryptによる格子QCDシミュレーションの最適化
- 並列言語XcalableMPのGPU向け拡張
- PGAS言語XcalableMPとUnified Parallel Cの性能比較
- PCI Expressを用いた通信リンクPEARLにおけるネットワーク管理機構
- MCAPIを用いた組込み向け耐故障分散共有メモリの実装
- MCAPIを用いた組込み向け耐故障分散共有メモリの実装
- 気象モデルの高解像度計算のGPU化
- 並列PGASプログラミング言語XcalableMPの入出力機能とLustreファイルシステムでの性能評価
- 並列PGASプログラミング言語XcalableMPの入出力機能とLustreファイルシステムでの性能評価
- 並列PGASプログラミング言語XcalableMPの入出力機能とLustreファイルシステムでの性能評価
- 並列PGASプログラミング言語XcalableMPの入出力機能とLustreファイルシステムでの性能評価
- 並列言語XcalableMPのアクセラレータ向け言語拡張のOpenCL実装
- JNIを用いたHadoopによる分子進化系統樹解析用プログラムTree-Puzzle並列化(数値解析,ネットワーク,クラウド及び一般)
- PCI ExpressネットワークPEARLにおける耐故障機構
- Tightly Coupled Acceleratorsアーキテクチャのための通信機構
- OmniコンパイラによるOpenACCの試作
- パーシャルメッセージロギングを改善する耐故障性実現フレームワーク
- パーシャルメッセージロギングを改善する耐故障性実現フレームワーク
- Tightly Coupled Acceleratorsアーキテクチャ向け通信機構の予備評価
- Tightly Coupled Acceleratorsアーキテクチャ向け通信機構の予備評価
- フラグメント分子軌道法に現れるFock行列計算のGPGPU化
- Tightly Coupled Acceleratorsアーキテクチャに基づくGPUクラスタの構築と性能予備評価