SPECベンチマークプログラムのCUDAによる並列化の検討

概要

論文の詳細を見る
近年,GPU を汎用的な科学計算に用いる手法である GPGPU が注目されている.GPU は CPU と比べて高速な演算性能を持っているが,GPU の高い並列性を生かすためには並列性を持ったプログラムの選択と最適化が不可欠である.Doall のような単純な計算においては性能を出しやすいが,漸化計算 (Reduction) のような並列性が低くなる計算では最適化を行わなければ性能を生かし切ることが出来ない.本研究報告では,並列性の高い汎用 SMP 用ベンチマークである SPEC OMPL2001 331.art を評価対象とし,最適化によって GPU の性能がどれほど得られ,データサイズによってどれほど性能向上の差があるかを調査する.GPGPU のための並列アーキテクチャ CUDA を用いてベンチマークプログラム 331.art を最適化し評価を行ったところ,12 コアでの並列実行の総計算時間と比べて 1.90 倍の速度向上を得た.また,配列サイズが 200 万個以上の漸化計算であればデータ転送帯域を有効に使うことが出来,CPU での並列実行より高速に動作させられることが確認できた.
2011-07-20