スーパーコンピュータ「京」における格子QCDの単体性能チューニング
スポンサーリンク
概要
- 論文の詳細を見る
格子量子色力学(格子QCD)は,時空間を4次元の立方格子として離散化し,格子点にクォークを,格子点間を結ぶリンクにグルオンを配置し,そのダイナミクスを求めることでクォークとグルオン間に働く強い力の相互作用を数値的に解く計算手法である.ダイナミクスを求める過程で,Wilson-Dirac演算子の逆行列の計算が行われる.この演算子は,複素要素を持つ大規模疎行列となるため,逆行列計算は格子QCDで最も計算時間を要する.今回チューニングを行った格子QCDコードであるLDDHMCは,領域分割されたHMCアルゴリズムに基づく手法(DD-HMC)を採用している.特徴としては,倍精度BiCGStab法の前処理として,単精度の領域分割シュワルツ交代法(SAP)を適用したBiCGStab法を使うことでほとんどの計算を単精度で行いつつ倍精度の解を求めることにある.さらにSAPの小領域に制限された行列の逆を求めるところにSSOR法を用いSAPの収束を改善している.「京」の単体性能向上のため,SSOR法の部分から3つのカーネルを抽出し,詳細プロファイラ機能を用いたボトルネック解析を実施した.その結果,オリジナルコードでは,a) SIMD命令率,b) 整数ロードキャッシュアクセス待ち,c) 浮動小数点ロードキャッシュアクセス待ち,d) 命令スケジューリング,e) バリア同期待ちに問題点があることが明らかになった.これらの問題点についてチューニングを実施した結果,カーネル1で1コアあたり23.2%から38.1%,カーネル2で24.3%から38.0%,カーネル3で23.6%から44.9%に実効効率が改善された.1チップあたりでは,カーネル1で29.5%,カーネル2で30.9%,カーネル3で37.8%の改善が得られた.コンパイラの改良において,カーネルを用いたプロファイル情報の解析やチューニング手法が有効であることを示した.
- 2013-09-25
著者
-
杉崎 由典
富士通株式会社
-
横川 三津夫
独立行政法人理化学研究所
-
横川 三津夫
独立行政法人理化学研究所計算科学研究機構|神戸大学大学院システム情報学研究科
-
南 一生
独立行政法人理化学研究所
-
藏増 嘉伸
独立行政法人理化学研究所計算科学研究機構|筑波大学数理物質系
-
中村 宜文
独立行政法人理化学研究所計算科学研究機構
-
寺井 優晃
独立行政法人理化学研究所計算科学研究機構
-
石川 健一
独立行政法人理化学研究所計算科学研究機構|広島大学大学院理学研究科
-
庄司 文由
独立行政法人理化学研究所計算科学研究機構
-
庄司 文由
(独)理化学研究所 次世代スーパーコンピュータ開発実施本部 開発グループ
-
寺井 優晃
独立行政法人理化学研究所
関連論文
- グリッドコンピューティングのためのウェブブラウザを用いたクライアント環境の構築(2006年並列/分散/協調処理に関する『高知』サマー・ワークショップ(SWoPP高知2006)
- SMPにおけるスレッド並列の台数効果と高速化手法について(EVA-1: 性能評価, 2005年並列/分散/協調処理に関する『武雄』サマー・ワークショップ(SWoPP武雄2005)-研究会・連続同時開催-)
- 再帰関数を用いた複雑境界モデルによる流路形状の自動最適化(シンポジウム特集論文)
- データ構造を考慮した実数型格子ガス法の並列計算の実装と評価(数値シミュレーション)
- 教育端末の遊休時間を利用したHPC環境
- LAPPによるレポート提出システムの開発と運用
- Linuxによる一般情報処理教育
- 29p-YP-4 Improved actionを用いたmonopole action
- 「バーチャル・ユニバーシティ」プロジェクトにおけるネットワーク利用授業に対する受講生の印象評定
- 23a-E-3 Lattice QCDにおけるmonopole dynamicsのgauge依存性II
- 29p-YP-5 Lattice QCDにおけるmonopole dynamicsのgauge依存性
- 地球シミュレータ上での流体コードのスケーラビリティ評価
- プラズマ粒子シミュレーション電流計算のOpenMP並列化手法
- MPI-2用ベンチマークプログラムライブラリMBL2の構築と評価
- 地球シミュレータ研究開発センター(国内,ラボラトリーズ)
- 地球シミュレータのMPI性能評価(高性能アーキテクチャ)
- 地球シミュレータ上のハイブリッドプログラミングの性能評価
- スーパーコンピュータで地球の未来を映し出す(地球シミュレータ計画:)
- 地球(ガイア)との共生の指針を求めて(地球シミュレータ計画:)
- 教育用PC端末群のPCクラスタ的利用とその運用について(セッション3)
- 並列化ICCG法ソルバによるSMPクラスタ型並列計算機HPC2500のベンチマーク評価
- 京速コンピュータ「京(けい)」とは何か? : 世界最速レベルの計算性能を目指して
- プロジェクト開始から,システム構成の概要,未来に向けた取り組みまで 世界1位を獲得したスーパーコンピュータ「京」の概要と未来
- MPI_Allreduceの「京」上での実装と評価
- MPI_Allreduceの「京」上での実装と評価
- MPI_Allreduceの「京」上での実装と評価
- MPI_Allreduceの「京」上での実装と評価
- 京速コンピュータ「京(けい)」とその利用
- 京速コンピュータ「京」におけるアプリケーション高性能化
- ファイルステージングのあるジョブスケジューリングの評価
- 計算科学研究機構の施設と設備 : 「京」の安定運用を支える基盤 (特集 スーパーコンピュータ「京(けい)」)
- システム概要 : 世界トップクラスの演算性能と使いやすさを両立 (特集 スーパーコンピュータ「京(けい)」)
- 京速コンピュータ「京」のアーキテクチャと開発の現状 (次世代スーパーコンピュータ)
- MPI_Allreduceの「京」上での実装と評価
- 大規模直接数値シミュレーションによる周期境界乱流中のエネルギー散逸率とエネルギースペクトル(論文賞受賞記念解説)
- スーパーコンピュータ「京」における格子QCDの単体性能チューニング
- スーパーコンピュータ「京」における地震動シミュレーションコードの高性能化
- スーパーコンピュータ「京」におけるアプリケーション性能へのTLBの影響
- 京コンピュータの先進技術
- X線自由電子レーザー施設SACLAとスーパーコンピューター「京」の連携(ネットワーク研究開発テストベッド運用・利用,一般)
- スーパーコンピュータ「京」の構成と評価(計算機システム,システム開発論文)