GPUにおける3倍・4倍精度浮動小数点演算の実現と性能評価
スポンサーリンク
概要
- 論文の詳細を見る
本論文では GPU において 3 倍・ 4 倍精度浮動小数点演算を実現し,線形計算への適用例として Level 1-3 の代表的な BLAS (Basic Linear Algebra Subprograms) ルーチンである AXPY, GEMV, GEMM を実装して性能評価を行った結果を示す. 4 倍精度演算には Double-Double 型 (DD型) の 4 倍精度演算 (DD演算) を用いた.一方で 3 倍精度演算として新たに, Double+Single 型 (D+S型) ・Double+Int 型 (D+I型) の 3 倍精度フォーマットを提案し,内部の計算に DD 演算を用いることで 3 倍精度演算を行う手法を実装した. NVIDIA Tesla M2090 における性能評価では, 3 倍・ 4 倍精度の AXPY・GEMV がメモリ律速となり,その実行時間はデータサイズに比例して,単精度ルーチンに対しておよそ 3 倍, 4 倍となることを示した.我々が提案した 3 倍精度演算は, 3 倍精度データに対する DD 演算がメモリ律速となるケースにおいて, 4 倍精度演算に対する速度面での利点が主張できる. 4 倍精度は必要ないが倍精度では精度が不足する場合では,特に PCI Express やネットワークの帯域が性能のボトルネックとなりやすい GPU クラスタ環境などで, 4 倍精度に対する 3 倍精度の有効性が期待できる.
- 2013-01-31
著者
関連論文
- GPUによる4倍精度BLASの実装と評価
- GPUによる4倍精度BLASの実装と評価
- GPUによる4倍精度BLASの実装と評価
- GPUによる4倍精度BLASの実装と評価
- GPUにおける3倍・4倍精度浮動小数点演算の実現と性能評価