Tightly Coupled Acceleratorsアーキテクチャに基づくGPUクラスタの構築と性能予備評価

概要

論文の詳細を見る
GPUなどの演算加速装置を用いたクラスタがHPCシステム向けに広く使われている.しかしこのようなクラスタでは,ノード間をまたがる演算加速装置間の通信において,CPUを介した複数回のメモリコピーが必要であった.このレイテンシ増加はアプリケーション性能を著しく低下させる.そこで,筑波大学計算科学研究センターでは,大規模GPUクラスタであるHA-PACSとしてコモディティ技術による大規模GPUクラスタ部分に加え,ノード間接続およびGPU間接続に,レイテンシとバンド幅の改善を目指した独自開発の密結合並列演算加速機構TCA(Tightly Coupled Accelerators)の開発を行っている.本論文では,TCAを実現する通信機構PEACH2とその基本転送性能の評価について述べる.さらにTCAを用いたアプリケーションの予備評価として,隣接2ノード間のping-pong通信における性能を測定し,従来の通信機構と比較した.その結果,ノードをまたぐCPUメモリ間転送では,最小レイテンシは0.9μsを実現し,最大バンド幅は3.5GB/sと,理論ピークの96%の性能が得られた.ノードをまたぐGPUメモリ間転送においては,最小で2.3μsのレイテンシを実現し,短いメッセージ長ではCUDAによるノード内GPU間転送を超える性能を示した.
2013-10-30