CPUとGPUを用いた並列GEMM演算の提案と実装(数値計算)
スポンサーリンク
概要
- 論文の詳細を見る
画像処理用のハードウェアであるGPU (Graphics Processing Unit)の性能向上にともない,CPUの演算能力を様々な分野で活用する研究がさかんである.我々はGPUを用いた新しい計算方式として,CPUとGPUの並列処理による数値計算方式を提案してきた.本稿では既存の数値計算ライブラリに対して計算方式を適用し,性能チューニングのための検討およびベンチマークプログラムを用いた性能評価を行った.計算方式をBLASのGEMMに適用して並列GEMMを作成し,これを用いてHPLベンチマークを実行したところ,Pentium4 3.0GHz単体での実行と比べて最大で1.45倍の性能を達成した.CPUによる演算が単精度であるためHPLの高速化としては問題があるものの,計算方式が現実的なアプリケーションに適用できる可能性を示すことができた.
- 社団法人情報処理学会の論文
- 2006-09-15
著者
-
片桐 孝洋
東京大学情報基盤センター
-
大島 聡史
電気通信大学大学院情報システム学研究科
-
弓場 敏嗣
電気通信大学大学院情報システム学研究科
-
片桐 孝洋
電気通信大学 大学院情報システム学研究科
-
吉瀬 謙二
電気通信大学大学院情報システム学研究科
-
弓場 敏嗣
電気通信大学
-
弓場敏嗣
電気通信大学
-
大島 聡史
東京大学情報基盤センタースーパーコンピューティング研究部門
-
片桐 孝洋
東京大学情報基盤センタースーパーコンピューティング研究部門
-
大島 聡史
東京大学 情報基盤センター スーパーコンピューティング研究部門
-
大島 聡史
独立行政法人科学技術振興機構 Crest|東京大学
関連論文
- SC09(学術会合報告)
- OMPCUDA : GPU向けOpenMPの実装(高性能計算)
- Relis-G : 計算グリッドのための遠隔ライブラリインストール機構(グリッド)
- GridRPCシステムにおけるリモートプログラムシッピング機構(グリッド)
- GridRPCシステムにおけるリモートプログラムシッピング機構
- 「行列・固有値問題の解法とその応用」研究部会活動報告(研究部会だより)
- 相乗り通信を利用したソフトウェアDSMの通信回数削減手法(ARC-9:メモリ管理,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
- 「数値計算のための自動チューニング」特集号に寄せて (特集 数値計算のための自動チューニング)
- SMPクラスタ上でのMPIとOpenMPを用いたマクロデータフロー処理(HPC-3 : クラスタソフトウェア)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
- 1.ソフトウェア自動チューニングの枠組み(概論,科学技術計算におけるソフトウェア自動チューニング)
- 「Cellスピードチャレンジ2008」実施報告(ARC-6:通信およびコンテスト報告,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- ソフトウェア自動チューニングにおける標本点逐次追加型性能パラメータ推定法の疎行列計算への適用(数値計算)
- マルチコアプログラミングコンテスト「Cellスピードチャレンジ2007」実施報告(ARC-11 : シミュレータおよびコンテスト報告,2007年並列/分散/協調処理に関する『旭川』サマー・ワークショップ(SWoPP旭川2007))
- Alphaアーキテクチャ用COINSマシン記述の実装とGCCとの比較
- ソフトウェア自動チューニングにおける標本点逐次追加型性能パラメータ推定法(数値計算,数理計画法)
- 通信量の密度に着目したS-DSM開発支援ツールS-CATの機能拡張(セッション2)
- ソフトウェアDSM MochaとMPIの並列ベンチマークを用いた性能評価(クラスタ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- 電力的制約を考慮した低消費電力指向最適化コンパイラ(コンパイラ及びツール,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- 量子i.i.d.状態における仮説検定の漸近特性に関する数値的アプローチ
- CPUとGPUを用いた並列GEMM演算の提案と実装(数値計算)
- MPIとの比較によるソフトウェアDSMの性能評価(ARC-9:メモリ管理,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
- Effect on Run-time Auto-tuning for the Multi-section with Multiple Eigenvalues Method
- 不均質なクラスタ環境を対象とするデータ再配置による動的負荷分散機構の設計と実装(会場A)
- Multi-section with Multiple Eigenvalues Method for Computing Eigenvalues in Symmetric Tridiagonal Eigensolvers(並列数値計算,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- Multi-section with Multiple Eigenvalues Method for Computing Eigenvalues in Symmetric Tridiagonal Eigensolvers(並列数値計算, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- S-DSMシステムにおけるページ要求時の受信通知を削減する方式(ソフトウェア分散共有メモリ)
- 「数値計算のための自動チューニング」特集号に寄せて(数値計算のための自動チューニング)
- SIAM CSE09(Conference Reports)
- タイムワープ法並列離散事象シミュレーションにおけるロールバックの雪崩現象
- 並列離散事象シミュレーションにおける適応的同期プロトコルの評価
- 並列離散事象シミュレーション実行過程のアニメーション表示
- 並列離散事象シミュレーションのための適応的タイムアウト方式の評価
- 「行列・固有値問題の解法とその応用」研究部会活動報告
- 超並列マルチコア環境での自動チューニング機能の有効性 : T2Kオープンスパコン上の固有値ソルバを例にして(並列数値計算)
- メッセージ通信型GPGPUプログラミング(プログラミング環境,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2008))
- 既存の並列化手法を用いたGPGPUプログラミングの提案(Inventive and Creative Architecture特別セッションI)
- 種々の並列・分散アプリケーションに対して容易に統合可能な動的ロードバランサpDLBの提案と実装
- 並行オブジェクト指向プログラミングにおける効率的な再帰メソッド呼出し機構の提案
- 分散インプリサイス計算における負荷の状態近似に基づく適応的なタスク移送方式
- 並行オブジェクト指向言語における再帰にともなうデッドロックの回避機構の設計と実装
- 並列オブジェクト指向言語における再帰にともなうデッドロックの回避機構の設計と実装
- 並行オブジェクト指向言語における再帰にともなうデッドロックの回避機構の設計と実装(並列・分散)
- 分散インプリサイス計算のための双主導スケジューリング方式の提案
- 並行オブジェクト指向言語における再帰にともなうデッドロックの回避機構
- マルチクラスタ向けソフトウェア分散共有メモリの提案
- ホームベースソフトウェア分散共有メモリ上でMigratory Accessを効率良く処理する権限委譲プロトコル(ソフトウェア分散共有メモリとその応用)
- プログラマの意図により複数のキャッシュコヒーレンスプロトコルの利用を可能とするソフトウェア分散共有メモリ
- Segmented Scan法のCUDA向け最適化実装
- GPU向けソフトウェアキャッシュ機構の実装と評価
- GPU向けソフトウェアキャッシュ機構の実装と評価
- OpenATLib:数値計算ライブラリ向け自動チューニングインタフェース
- ペタフロップス環境における小規模行列用対称密行列固有値ソルバに向けて-逆変換の改良
- 細粒度通信機構を持つ並列計算機EM-Xにおける共有メモリプログラムの効率的実行
- 2000-ARC-139-15 EM-XとMD Oneを統合化した粒子シミュレーション用並列計算機プロトタイプの構築
- 並列計算機EM-Xの細粒度通信機構を用いた共有メモリベンチマークの実行
- 並列計算機EM-Xの細粒度通信機構を用いた共有メモリベンチマークの実行
- 並列計算機用要素プロセッサの細粒度同期機構におけるキャッシュ方式の検討
- ウェーブフロント型並列処理における分散メモリ型並列計算機の通信機構の評価 (並列処理)
- 細粒度並列計算機EM-Xにおけるキャシュメモリアーキテクチャ
- Xabclib : 汎用的自動チューニングインターフェースOpenATLibを利用した反復解法ライブラリの開発(数値計算のための自動チューニング(続))
- メッセージ通信型GPGPUプログラミング(プログラミング環境,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2008))
- 行列計算ライブラリ向け数値計算ポリシーインターフェースの提案
- 自動チューニングインターフェースOpenATLibにおける疎行列ベクトル積アルゴリズム
- OpenATLibを利用した疎行列ライブラリの開発と評価
- OpenATLib:汎用的な自動チューニングインターフェースの設計と実装
- ソフトウェアDSM MochaとMPIの並列ベンチマークを用いた性能評価(クラスタ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- 電力的制約を考慮した低消費電力指向最適化コンパイラ(コンパイラ及びツール,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- CPUとGPUの並列処理による行列積和演算方式の提案(ARC-8: 応用システム, 2005年並列/分散/協調処理に関する『武雄』サマー・ワークショップ(SWoPP武雄2005)-研究会・連続同時開催-)
- 3次元津波伝搬シミュレーションにおけるコード最適化一手法
- 「Cellチャレンジ2009」実施報告
- 「Cell チャレンジ2009」実施報告
- SIAM AN10(Conference Reports)
- マルチコアプロセッサにおけるリオーダリング付き非構造格子向け前処理付反復法の性能
- Windowsクラスタにおける疎行列反復解法ソルバの自動チューニング(HPC-3:自動チューニングI,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- GPU向けソフトウェアキャッシュ機構の実装と評価
- GPU向けソフトウェアキャッシュ機構の実装と評価
- 自動チューニングインターフェース OpenATLib における疎行列ベクトル積アルゴリズム
- 2008年度年会「若手研究者による学会への期待」報告
- Supercomputing 08(Conference Reports)
- 編集にあたって(科学技術計算におけるソフトウェア自動チューニング)
- 4.ソフトウェア自動チューニング記述のための計算機言語(ソフトウェア自動チューニングを支える基盤,科学技術計算におけるソフトウェア自動チューニング)
- T2Kオープンスーパーコンピュータと共用イノベーション
- 疎行列反復解法ライブラリにおける自動チューニング機能の開発 (科学技術計算アルゴリズムの数理的基盤と展開)
- 自動チューニング処理記述言語ABCLibScript の組み込みシステムへの適用の一検討(HPC-12 : 自動チューニングII)
- 三次元有限要素法アプリケーションにおける行列生成処理のCUDA向け実装
- 疎行列-ベクトル積における実行時データ変換のための自動チューニング方式
- 三次元有限要素法アプリケーションのCUDA向け実装と性能評価
- 自動チューニングインターフェースOpenATLibにおける自動チューニング機能の評価
- HxABCLibScript:非均質計算機向け自動チューニング記述言語拡張
- 高精度行列-行列積アルゴリズムのスレッド並列化とABCLibScriptへの機能実装
- 大規模SMP並列スーパーコンピューター(HITACHI SR16000モデルM1)の性能評価
- 日本応用数理学会若手の会(研究部会だより)
- SC10参加報告
- SIAM CSE 11(学術会合報告)
- $ppOpen-AT$ : ポストペタスケール時代の数値シミュレーション基盤ソフトウェア$ppOpen-HPC$ のための自動チューニング基盤 (科学技術計算における理論と応用の新展開)
- 収束障害(Fault Convergence):数値計算ソフトウェアにおける新しい安全性の概念
- 量子i.i.d.状態の仮説検定に関する数値的手法とその誤差分析 (コンピューティングシステム Vol.4 No.4)
- レイテンシコアの高度化・高効率化による将来のHPCIシステムに関する調査研究のためのアプリケーションと性能評価
- レイテンシコアの高度化・高効率化による将来のHPCIシステムに関する調査研究のためのアプリケーションと性能評価
- BiCGStab法の前処理付きアルゴリズムに対する改善 (コンピューティングシステム Vol.5 No.3)