PGAS言語XcalableMPのmulti-node GPU向け拡張仕様の実装と評価

概要

論文の詳細を見る
GPU アーキテクチャの汎用化と高速化によって,GPU クラスタは高いコストパフォーマンスと演算性能,省電力化を HPC 分野にもたらしている.これまで汎用計算における GPU の高速化効果を目的とするプログラミング言語モデルの拡張やライブラリが数多く提案されてきた.しかし,これらは GPU を搭載するシングルノード環境を対象とする拡張が多く,GPU クラスタなどのメモリ分散システムを対象とするものがまだ少ない.multi-node GPU クラスタにおける高い性能プログラミングは通常の 1 ノード内のホストーGPU の拡張だけでは不十分,それぞれのノードにまたがる GPU どうしのプログラミングも意識する必要がある.そこで,現在,我々は Partitioned Global Address Space(PGAS) プログラミングモデルをベースとした並列プログラミング言語 XcalableMP を GPU クラスタに適用可能とするための拡張を行っている.本稿では,行列積計算を対象に,GPU クラスタにおける XMP-ACC 拡張のプログラミングコストと性能について調査した.その結果,4 ノードの GPU クラスタにおいて,CPU のみを用いた XcalableMP プログラムよりも,それに数行の XMP-ACC 指示文の追加したプログラムのほうが約 42 倍の速度向上が得られた.
2011-07-20