行列乗算カーネルの性能評価
スポンサーリンク
概要
- 論文の詳細を見る
本研究では,Cypress GPU に最適化された行列乗算 (General Matrix Multiply; GEMM) カーネルの性能評価について報告する.我々は,Cypress アーキテクチャに最適化された単精度 (SGEMM),倍精度 (DGEMM) だけでなく,四倍精度での GEMM (DDGEMM) のカーネルを実装した.我々の SGEMM と DGEMM カーネルは,それぞれ,理論性能に対して最大 73% と 87% の演算効率をしめした.現時点において,我々の GEMM カーネルは 1 GPU のシステムにおいて世界でも最も高速である.さらに,DDGEMM カーネルの性能は 31 Gflop/s である.DDGEMM カーネルの性能は CPU での四倍精度 GEMM 実装である mpack(0.6.5) と比べて 200 倍以上高速である.本論文では,GEMM カーネルの実装の詳細を SGEMM カーネルに注目して説明する.これまで GPU でのプログラミングで必須の最適化手法は,共有メモリの効率のよい利用法が大部分であった.Cypress アーキテクチャではテクスチャキャッシュが有効であり,それにより我々は共有メモリを使わずに高性能な GEMM カーネルを実現している.
- 2010-10-06
著者
関連論文
- アクセラレータを活用するためのプログラミング環境
- 行列乗算カーネルの性能評価
- アクセラレータによる四倍精度演算
- 高精度浮動小数点演算器のFPGAでの実装(応用1)
- OpenCLによる四倍精度行列積の高速化
- 計算宇宙物理のためのGPUクラスタ向け並列Tree Codeの開発と性能評価