通信削減アルゴリズムCAQRのRSDFTの直交化処理への適用と評価
スポンサーリンク
概要
- 論文の詳細を見る
本報告では,量子力学的第一原理シミュレーションのソフトウェア RSDFT における直交化処理に,通信削減アルゴリズムを用いた QR 分解アルゴリズムである CAQR を組み込んだ性能について報告する.東京大学情報基盤センターの FX10 を用いた 1,024 ノード実行 (4,096MPI,MPI 当たり 4OMP 実行のハイブリッド MPI-OpenMP 実行) におけるバンド分割が 64 の時の実行では,従来の Gram-Schmidt 法による直交化に比べ CAQR を利用すると,最大で 11 倍の高速化が得られる事例があった.
- 2014-05-19
著者
関連論文
- OMPCUDA : GPU向けOpenMPの実装(高性能計算)
- 相乗り通信を利用したソフトウェアDSMの通信回数削減手法(ARC-9:メモリ管理,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
- ソフトウェアDSM MochaとMPIの並列ベンチマークを用いた性能評価(クラスタ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- CPUとGPUを用いた並列GEMM演算の提案と実装(数値計算)
- MPIとの比較によるソフトウェアDSMの性能評価(ARC-9:メモリ管理,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
- メッセージ通信型GPGPUプログラミング(プログラミング環境,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2008))
- 既存の並列化手法を用いたGPGPUプログラミングの提案(Inventive and Creative Architecture特別セッションI)
- GPUコンピューティング向け中間言語の研究
- Segmented Scan法のCUDA向け最適化実装
- GPU向けソフトウェアキャッシュ機構の実装と評価
- GPU向けソフトウェアキャッシュ機構の実装と評価
- メッセージ通信型GPGPUプログラミング(プログラミング環境,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2008))
- ソフトウェアDSM MochaとMPIの並列ベンチマークを用いた性能評価(クラスタ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- CPUとGPUの並列処理による行列積和演算方式の提案(ARC-8: 応用システム, 2005年並列/分散/協調処理に関する『武雄』サマー・ワークショップ(SWoPP武雄2005)-研究会・連続同時開催-)
- SIAM AN10(Conference Reports)
- 三次元有限要素法アプリケーションにおける行列生成処理のCUDA向け実装
- ヘテロ環境を目指した拡張階層型領域間分割に基づく高次フィルイン付き前処理手法の高速化
- 三次元有限要素法アプリケーションのCUDA向け実装と性能評価
- 自動チューニングインターフェースOpenATLibにおける自動チューニング機能の評価
- HxABCLibScript:非均質計算機向け自動チューニング記述言語拡張
- 大規模SMP並列スーパーコンピューター(HITACHI SR16000モデルM1)の性能評価
- 複数GPU向けのCUDAコードを生成するOpenMP処理系の提案
- 収束障害(Fault Convergence):数値計算ソフトウェアにおける新しい安全性の概念
- レイテンシコアの高度化・高効率化による将来のHPCIシステムに関する調査研究のためのアプリケーションと性能評価
- レイテンシコアの高度化・高効率化による将来のHPCIシステムに関する調査研究のためのアプリケーションと性能評価
- レイテンシコアの高度化・高効率化による将来のHPCIシステムに関する調査研究のためのアプリケーション最適化と異機種計算機環境での性能評価
- Xeon PhiにおけるSpMVの性能評価
- レイテンシコアの高度化・高効率化による将来のHPCIシステムに関する調査研究のアプリケーションの異機種環境での評価 〜メニーコア環境を中心に〜
- 通信削減アルゴリズムCAQRのRSDFTの直交化処理への適用と評価