行列積を用いた古典Gram-Schmidt直交化法の並列化
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,直交化アルゴリズムの1つである古典Gram-Schmidt法(CGS 法)の効率的な実装を行い,並列化して評価した結果について述べる.CGS法においては,内積計算とベクトル変換を行列積に変更することで高速化できることが知られている.本論文では,CGS法を行列積で行う手法を拡張し,行列積を適用できる範囲の比率を高めることで性能を改善することができることを示す.また,行列積の実装上の特徴から,最適な分割手法が存在することを示す.提案する手法をPCクラスタに実装し,性能評価を行った.その結果,32ノードのXeon 3 GHz PCクラスタにおいて,naiveな実装に対し約5.36倍の高速化となり,約122.9GFLOPSの性能を得ることができた.
- 2008-06-26
著者
-
高橋 大介
筑波大学大学院システム情報工学研究科
-
朴 泰祐
筑波大学大学院システム情報工学研究科コンピュータサイエンス専攻
-
高橋 大介
東京大学情報基盤センター:(現)埼玉大学大学院理工学研究科
-
高橋 大介
筑波大学計算科学研究センター
-
横澤 拓弥
筑波大学大学院システム情報工学研究科
-
佐藤三久
筑波大学大学院システム情報工学研究科
-
高橋 大介
筑波大学
-
佐藤 三久
筑波大学大学院システム情報工学研究科|筑波大学計算科学研究センター
-
朴 泰祐
筑波大学 計算科学研究センター
-
朴 泰祐
筑波大学大学院システム情報工学研究科|筑波大学計算科学研究センター
関連論文
- HMCS-G : グリッド環境における計算宇宙物理のためのハイブリッド計算システム(グリッド応用)
- マルチコア超並列クラスタにおけるVolumetric並列三次元FFTの実現と評価(並列アプリケーション実装,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 演算加速機構を持つオンチップメモリプロセッサの電力性能評価(ARC-3 : 性能評価およびモデリング,2007年並列/分散/協調処理に関する『旭川』サマー・ワークショップ(SWoPP旭川2007))
- ユーザ透過に利用可能な耐故障・高性能マルチリンクEthernet結合システム(クラスタと省電力技術)
- 円周率世界記録更新 : 2兆5769億8037万桁への道
- T2K筑波システムにおけるLinpack性能評価(HPC-4:性能評価,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- Short Vector SIMD命令を用いた並列FFTの実現と評価(性能最適化)
- 大規模固有値問題のmaster-worker型並列解法(数値計算)
- OmniRPCによるグリッド環境での大規模固有値問題の並列解法(数値アルゴリズム)
- "FIRST"-第一世代天体の起源解明のための専用・汎用計算機融合型クラスタ(HPC-8: 高性能クラスタ)
- バンド幅指向超並列クラスタPACS-CS
- マルチパスネットワークを持つPCクラスタにおける動的経路制御システム(クラスタシステム)
- tagged-VLANを用いたPCクラスタ向けマルチパスネットワークにおける動的ルーティング(HPC-13 : 通信II)
- EthernetマルチリンクによるPCクラスタ向け高バンド幅・耐故障ネットワークRI2N/UDP(ネットワーク)
- tagged-VLANとマルチリンクに基づくPCクラスタ向け高性能・耐故障ネットワークの実装と評価(Session 3:Cluster/Grid)
- VFREC-Net : ドライバ制御によるtagged-VLANを用いたPCクラスタ向けマルチパスネットワーク(ネットワーク)
- UDPによるファイアウォール越えを用いたP2Pオーバーレイネットワーク(HPC-7 : 分散環境(1))
- EthernetマルチリンクによるPCクラスタ向け耐故障ネットワークRI2N/UDP(ネットワーク,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- EthernetマルチリンクによるPCクラスタ向け耐故障ネットワークRI2N/UDP(ネットワーク, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- tagged-VLANに基づくPCクラスタ向け高バンド幅ツリーネットワークの開発(HPCシステム)
- Etheretによるクラスタ上での分散共有メモリOpenMP Omni/SCASHの性能評価
- プリフェッチ機構を持つマルチコア向けソフトウェア分散共有メモリシステム(HPC-14:分散処理,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- オンチップメモリプロセッサでの演算加速機構の検討(プロセッサ・アーキテクチャ(2),「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- PCクラスタにおける電力実行プロファイル情報を用いたDVS制御による電力性能の最適化(クラスタシステム)
- PCクラスタにおける電力実行プロファイル情報を用いたDVS制御による電力性能の最適化(省電力,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- PCクラスタにおける電力実行プロファイル情報を用いたDVS制御による電力性能の最適化(省電力, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- 高性能計算のための低電力・高密度クラスタMegaProto(HPCハードウェア)
- PCクラスタにおけるDVS制御による電力性能の最適化(ARC-3: 低電力アーキテクチャ1, 2005年並列/分散/協調処理に関する『武雄』サマー・ワークショップ(SWoPP武雄2005)-研究会・連続同時開催-)
- 高性能計算のための低電力・高密度クラスタMegaProto(クラスタと通信, 分散処理, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2005))
- 計算環境に依存しない行列計算ライブラリインタフェースSILC(一般講演2)
- 探索結果を利用した実現確率探索
- オンチップメモリプロセッサでの演算加速機構の検討(プロセッサ・アーキテクチャ(2),「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- 積和演算命令に向いた8基底FFTカーネルの提案
- 級数に基づく多数桁計算の演算量削減を実現する分割有理数化法
- 積和演算に向いた8基底FFT Kernelの提案
- 無限級数に基づく多数桁計算の演算量削減を実現する分割有理数化法 (数値計算における前処理の研究)
- 分散メモリ型並列計算機による円周率の515億桁計算
- 分散メモリ型並列計算機による2, 3, 5基底一次元FFTの実現と評価
- 多数桁の円周率を計算するための公式の改良 : ガウスールジャンドルの公式とボールウェインの4次の収束の公式
- 分散メモリ型並列計算機による円周率の高精度計算
- 並列計算機における二次記憶を用いた一次元FFTの実現と評価
- 分散メモリ型並列計算機による多倍長平方根の高速計算法
- 分散メモリ型並列計算機による2, 3, 5基底のFFTの実現と評価
- 分散メモリ型並列計算機による高速多倍長計算
- 多倍長平方根の高速計算法
- GPUにおける格納形式自動選択による疎行列ベクトル積の高速化
- GPUにおける格納形式自動選択による疎行列ベクトル積の高速化
- マルチレール相互結合網における通信プロファイリングに基づく性能最適化
- GPUによる4倍精度BLASの実装と評価
- GPUによる4倍精度BLASの実装と評価
- トラフィック量に適応する非対称マルチリンクEthernetトランキング
- 分散メモリ向け並列言語XcalableMPコンパイラの実装と性能評価
- PCI Expressによる省電力・高信頼・高性能通信リンクのためのコミュニケータチップ: PEACH
- PCI Expressによる省電力・高信頼・高性能通信リンクのためのコミュニケータチップ: PEACH
- 行列積を用いた古典Gram-Schmidt直交化法の並列化
- モンテカルロ木探索によるコンピュータ将棋
- PACS-CSにおける隣接通信性能の高速化(HPC-13 : 通信II)
- PACS-CSのための高性能通信ライブラリインターフェイスの設計(HPC-12 : 大規模運用システム(2))
- マルチコア超並列環境におけるFFTの自動チューニング(数値計算のための自動チューニング(続))
- 行列積を用いた古典Gram-Schmidt直交化の並列化手法の検討(数値計算2)
- 演算加速機構を持つオンチップメモリプロセッサの検討と電力性能評価
- DVFS制御を目的としたプログラムの領域分割(Session 6:低消費電力)
- MegaProto/Eにおける電力性能評価および電力性能最適化の検討(Session 6:低消費電力)
- DVS制御による負荷不均衡のある並列プログラムの電力量削減手法(クラスタシステム)
- PCクラスタにおける全体電力プロファイルを用いた電力性能最適化(ARC-1:低電力アーキテクチャ,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
- DVS制御による負荷不均衡のある並列プログラムの電力量削減手法(省電力,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- DVS制御による負荷不均衡のある並列プログラムの電力量削減手法(省電力, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- クラスタをメモリ資源として利用するためのMPIによる高速大容量メモリ
- 超並列クラスタにおける3D-RISMへのVolumetric並列三次元FFTの適用と性能評価
- 分散メモリ向け並列言語XcalableMPにおけるユーザ定義データ分散機能の検討
- 非対称な形状に適応する高バンド幅multi-link Ethernet
- 分散メモリ向け並列言語XcalableMPコンパイラの試作と評価
- ユーザ透過に利用可能な高性能・耐故障マルチリンクEthernet結合システム
- マルチコアプロセッサと SIMD 演算によるモンテカルロ木探索を用いたオセロの実装
- マルチコア超並列クラスタにおけるVolumetric並列三次元FFTの実現と評価(並列アプリケーション実装,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 2U-4 モンテカルロ法によるコンピュータ将棋の実現(ゲーム・知識ベース,学生セッション,人工知能と認知科学)
- SC|05報告
- GPUによる4倍精度BLASの実装と評価
- GPUによる4倍精度BLASの実装と評価
- 超並列クラスタにおける3D-RISMへの Volumetric 並列三次元FFTの適用と性能評価
- マルチコアプロセッサとSIMD演算によるモンテカルロ木探索を用いたオセロの実装
- オンチップメモリプロセッサでの演算加速機構の検討 (計算機アーキテクチャ・ハイパフォーマンスコンピューティング 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- 複数グリッドジョブ実行システムの計算資源を統合・利用するGrid RPCシステムの設計と実装(グリッドシステム)
- グリッドRPCシステムOmniRPCにおける初期データの分散管理による効率化(グリッドRPC)
- オンチップRAM利用による電力性能の最適化と評価(ARC-3: 低電力アーキテクチャ1, 2005年並列/分散/協調処理に関する『武雄』サマー・ワークショップ(SWoPP武雄2005)-研究会・連続同時開催-)
- PCI Express による省電力・高信頼・高性能通信リンクのためのコミュニケータチップ : PEACH
- メモリバンド幅に着目したマルチコアノード上のアプリケーション最適化
- 非対称な形状に適応する高バンド幅 multi-link Ethernet
- 複数グリッドミドルウエア上で動作するGrid RPCシステムOmniRPCの設計と実装(HPC-4: グリッド)
- 分散メモリ向けデータ並列言語OpenMPDの設計と実装(コンパイラ及びツール,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- 分散メモリ向けデータ並列言語OpenMPDの設計と実装(コンパイラ及びツール,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- 計算科学のための超並列クラスタPACS-CSの概要(HPC-8: 高性能クラスタ)
- 演算加速装置に基づく超並列クラスタHA-PACSによる大規模計算科学
- 並列言語XcalableMPのGPU向け拡張
- MCAPIを用いた組込み向け耐故障分散共有メモリの実装
- MCAPIを用いた組込み向け耐故障分散共有メモリの実装
- MPIを通信レイヤに用いるソフトウェア分散共有メモリシステム(ソフトウエアDSM)
- Fibonacci数の高速計算法
- 並列言語XcalableMPのアクセラレータ向け言語拡張のOpenCL実装
- 大規模GPUクラスタにおけるN体計算コードの演算性能とスケーラビリティの評価