GPUによる3倍精度浮動小数点演算の検討
スポンサーリンク
概要
- 論文の詳細を見る
近年,プロセッサの演算性能向上に対してメモリやネットワークのバンド幅不足が問題となっている.浮動小数点演算において倍精度演算で精度が不足する場合,4 倍精度演算を用いることが検討されてきたが,データアクセス量が少なくて済む 3 倍精度演算が有効となるケースが存在すると考えられる.本研究では 3 倍精度数を倍精度数と単精度数に分けて格納する Double+Single 型 3 倍精度型 (D+S 型) および D+S 型 3 倍精度演算 (D+S 型演算) を提案し,GPU による 3 倍精度の BLAS(Basic Linear Algebra Subprograms) ルーチンを実装して,その性能をTesla C2050 で評価した.D+S 型演算には Double-Double 型 4 倍精度演算 (DD 型演算) のアルゴリズムにおいて一部演算を単精度演算で行う手法を実装したが,倍精度数-単精度数の型変換が多発し D+S 型演算は DD 型演算よりも高コストとなった.そのため BLAS の入出力を D+S 型で行い,演算には DD 型演算を用いる方式を実装した.Tesla C2050 では 3 倍精度 AXPY が CUBLAS の倍精度 AXPY の約 1.57 倍の実行時間,3 倍精度 GEMV が倍精度 GEMV の約 1.69 倍の実行時間となり,それぞれ 4 倍精度ルーチンよりも高速な性能を示した.本稿では GPU における D+S 型および D+S 型演算の有効性について議論する.
- 2011-11-21
論文 | ランダム
- 不完全競争下におけるEU輸出補助金撤廃の貿易効果--脱脂粉乳を事例として
- NACA 翼の広帯域騒音に及ぼすはく離流れの影響
- C17 シロッコファンのケーシング内部流動と性能評価(C1 流体工学(空気機械))
- セレーション平板翼の空力騒音低減効果
- 117 ジェットファンの空力特性と騒音特性に及ぼす翼の捻りの影響(騒音・振動対策の最前線(2),騒音・振動評価・改善技術)