OMPCUDA : GPU向けOpenMPの実装(高性能計算)

概要

論文の詳細を見る
GPU(Graphics Processing Unit)を用いた汎用演算GPGPU(General-Purpose computation using GPUs)は高い演算性能が注目されている一方で,プログラム作成の難しさが問題となっている.そこで我々は,既存の並列プログラミング手法を用いたGPGPUプログラミングを提案している.本論文では共有メモリ型並列計算機で広く用いられているOpenMPを用いたGPGPUの可能性を探るため,CUDA対応GPU向けのOpenMP処理系OMPCUDAを実装した.また,並列性の高いテストプログラムを用いて評価を行い,並列プログラムが容易に作成できることおよび既存のOpenMPと同様の記述で容易に並列高速化できることを確認した.
2008-12-09

著者

大島聡史
電気通信大学大学院情報システム学研究科
平澤将一
電気通信大学大学院情報システム学研究科
本多弘樹
電気通信大学大学院情報システム学研究科
本多弘樹
電気通信大学大学院情報システム学研究科:独立行政法人科学技術振興機構 Crest
平澤将一
電気通信大学大学院情報システム学研究科:独立行政法人科学技術振興機構 Crest
大島聡史
東京大学情報基盤センタースーパーコンピューティング研究部門
平澤将一
電気通信大学|独立行政法人科学技術振興機構 Crest
本多弘樹
電気通信大学大学院情報システム学研究科
大島聡史
独立行政法人科学技術振興機構 Crest|東京大学
平澤将一
電気通信大学大学院情報システム学研究科
大島総史
東京大学情報基盤センター

関連論文

OMPCUDA : GPU向けOpenMPの実装(高性能計算)
POSIXスレッドを用いたCellプロセッサ向けAPIの提案(マルチプロセッサ)
コードの性能可搬性を提供するSIMD向け共通記述方式(コンパイラ)
F-Omega : サーバ稼動状況に適応するGridRPCアプリケーションの開発・実行フレームワーク(シミュレーション・エミュレーション,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
高性能GridRPCアプリケーションの開発環境(グリッド)
高性能 GridRPC アプリケーションの開発環境
コードの性能可搬性を提供するSIMD向け共通記述方式(ARC-7:性能予測,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
GridRPCアプリケーションポータルの構築・運用を支援するポートレット(並列処理システム)
高性能GridRPCアプリケーションの開発環境(グリッドRPC)
Relis-G : 計算グリッドのための遠隔ライブラリインストール機構(グリッド)
GridRPCシステムにおけるリモートプログラムシッピング機構(グリッド)
GridRPCシステムにおけるリモートプログラムシッピング機構
相乗り通信を利用したソフトウェアDSMの通信回数削減手法(ARC-9:メモリ管理,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
ネットワークサービス提供に向けた汎用システムにおけるソフトウェア修正方式(交換)
SMPクラスタ上でのMPIとOpenMPを用いたマクロデータフロー処理(HPC-3 : クラスタソフトウェア)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
iPat/OMPでのソースコードレベル最適化における試行錯誤支援ツール(コンパイラ及びツール,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
ソフトウェアDSM MochaとMPIの並列ベンチマークを用いた性能評価(クラスタ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
CPUとGPUを用いた並列GEMM演算の提案と実装(数値計算)
MPIとの比較によるソフトウェアDSMの性能評価(ARC-9:メモリ管理,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
S-DSMシステムにおけるページ要求時の受信通知を削減する方式(ソフトウェア分散共有メモリ)
タイムワープ法並列離散事象シミュレーションにおけるロールバックの雪崩現象
並列離散事象シミュレーションにおける適応的同期プロトコルの評価
メッセージ通信型GPGPUプログラミング(プログラミング環境,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2008))
非均一分散環境における並列性の仮想化(Inventive and Creative Architecture特別セッションII)
既存の並列化手法を用いたGPGPUプログラミングの提案(Inventive and Creative Architecture特別セッションI)
コンパイラ研究の明日 : アーキテクチャの進歩とともに(パネル討論会, SHINING 2006 「アーキテクチャとコンパイラの協調および一般」)
SMPクラスタ上でのタスク粒度を考慮した階層型粗粒度並列処理(並列処理手法, SHINING 2006 「アーキテクチャとコンパイラの協調および一般」)
分散インプリサイス計算における負荷の状態近似に基づく適応的なタスク移送方式
F-Omega : サーバ稼動状況に適応するGridRPCアプリケーションの開発・実行フレームワーク(シミュレーション・エミュレーション,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
GPUコンピューティング向け中間言語の研究
マルチクラスタ向けソフトウェア分散共有メモリの提案
ホームベースソフトウェア分散共有メモリ上でMigratory Accessを効率良く処理する権限委譲プロトコル(ソフトウェア分散共有メモリとその応用)
プログラマの意図により複数のキャッシュコヒーレンスプロトコルの利用を可能とするソフトウェア分散共有メモリ
キャリアグレードOSのためのディスクWrite処理方式
GPU向けソフトウェアキャッシュ機構の実装と評価
GPU向けソフトウェアキャッシュ機構の実装と評価
細粒度通信機構を持つ並列計算機EM-Xにおける共有メモリプログラムの効率的実行
2000-ARC-139-15 EM-XとMD Oneを統合化した粒子シミュレーション用並列計算機プロトタイプの構築
並列計算機EM-Xの細粒度通信機構を用いた共有メモリベンチマークの実行
並列計算機EM-Xの細粒度通信機構を用いた共有メモリベンチマークの実行
並列計算機用要素プロセッサの細粒度同期機構におけるキャッシュ方式の検討
細粒度並列計算機EM-Xにおけるキャシュメモリアーキテクチャ
GridRPCにおける計算ノードの動的な追加・切替を可能とする枠組
F-Omega:グリッドアプリケーションの自動サーバ切替えの枠組み
メッセージ通信型GPGPUプログラミング(プログラミング環境,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2008))
iPat/OMPでのソースコードレベル最適化における試行錯誤支援ツール(コンパイラ及びツール,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
ソフトウェアDSM MochaとMPIの並列ベンチマークを用いた性能評価(クラスタ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
CPUとGPUの並列処理による行列積和演算方式の提案(ARC-8: 応用システム, 2005年並列/分散/協調処理に関する『武雄』サマー・ワークショップ(SWoPP武雄2005)-研究会・連続同時開催-)
Bimode-Plus分岐予測器の提案(プロセッサアーキテクチャ)
対話型OpenMPプログラム作成支援ツールの開発(ARC-9:ハイパフォーマンスコンピューティング)(2003年並列/分散/協調処理に関する『松江』サマー・ワークショップ(SWoPP松江2003))
ユーザ知識を活用するソフトウエア自動チューニングについて(EVA-2 : 性能改善)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
GridRPC における計算ノードの動的な追加・切替を可能とする枠組
GPU向けソフトウェアキャッシュ機構の実装と評価
GPU向けソフトウェアキャッシュ機構の実装と評価
IPネットワークにおける待時式帯域予約通信方式の評価 (インターネットの新しいサービスとその基盤技術, 及び一般)
帯域予約開始までの待ち時間を考慮したRSVPの提案(インターネットアーキテクチャ技術論文特集)
RAO-SS : Autopilotを用いた疎行列ソルバにおける実行時自動チューニング機構(数値計算アルゴリズム(1), 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2005))
RAO-SS : Autopilot を用いた疎行列ソルバにおける実行時自動チューニング機構
D-3-9 Autopilotを用いた疎行列ソルバにおける実行時自動チューニング機構の設計(D-3. ソフトウェアサイエンス)
階層並列構造と演算チェインニング機構を持つ : 粒子シミュレーション用並列計算機の提案
タイムワープ法並列離散事象シミュレーションにおけるロールバックの雪崩現象
タイムワープ法並列離散事象シミュレーションにおけるロールバックの雪崩現象
並列離散事象シミュレーションにおける適応的同期プロトコルの評価
SimCore/Alpha Functional Simulatorの設計と実装(VLSI設計支援システム, システム開発論文)
Doacrossループのsandglass型並列化方法とその評価 (並列処理)
データの分割配置を考慮したsandglass型並列化手法の有効性について
データの分割配置を考慮したsandglass型並列化手法の有効性について
データの分割配置を考慮したsandglass型並列化手法の有効性について
Doacrossループのsandglass型並列化手法の有効性について
Doacrossループにおける並列粒度調整方法の検討
分散メモリシステム上でのマクロデータフロー処理のためのデータ到達条件
分散メモリシステム上でのマクロデータフロー処理の実現
D-6-6 分散メモリシステム上での粗粒度並列処理のためのデータ到達条件
分散メモリシステム上でのマクロデータフロー処理の実現
機械学習により抽出されたアプリケーションの特徴を利用したタスク配置の検討
ヘテロジニアス計算機クラスタにおける省エネルギー化タスクスケジューリング手法
S-DSMシステムの受信通知オーバヘッドを削減する方式(システムII)(リコンフィギャラブルシステムにおける設計技術及び一般)(デザインガイア2004-VLSI設計の新しい大地を考える研究会-)
HxABCLibScript:非均質計算機向け自動チューニング記述言語拡張
PCクラスタを用いたN-queens問題の求解
O-011 qn24b: N-queensの解を計算するベンチマークプログラム(O.情報システム)
走行時パワーゲーティングにおけるスラック解析を用いた動的命令スケジューリングの検討
2000-DSM-18-1 ワールドワイドなインターラクティブシステムのためのHTTPコネクション型RPCの検討
可換/結合法則が成立する操作を対象としたログベース更新型分散共有メモリ
データ再分散を行う並列Gram-Schmidt再直交化(数値計算)
Peer-to-Peerシステムにおける共有ファイルの最適配置手法の提案
ソフトウェア分散共有メモリを用いたマクロデータフロー処理(並列処理)
PCクラスタ上でのマクロデータフロー処理の評価(スケジューリング)
D-6-9 分散メモリ型並列計算機上での粗粒度並列処理におけるデータローカライゼーション手法(D-6. コンピュータシステム)
D-6-7 0MJ : JIAJIA向けのOpenMPコンパイラ(D-6. コンピュータシステム)
D-3-10 SMPマシン上でのBLASライブラリ用自動チューニング機構の設計と実装(D-3. ソフトウェアサイエンス)
粗粒度並列化コンパイラCoCoの開発(並列処理のためのシステム)
キャッシュラインの時間情報を利用するTime Based Filterの提案
RAO-SS : Autopilotを用いた疎行列ソルバにおける実行時自動チューニング機構(数値計算アルゴリズム(1), 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2005))
MPI埋め込み可能GPUプログラミングフレームワーク適用可能性の評価(並列処理支援,2011年並列/分散/協調処理に関する『鹿児島』サマー・ワークショップ(SWoPP鹿児島2011))
マルチコア・プロセッサ向けのヘルパースレッドによるキャッシュ制御支援手法の検討
複数GPU向けのCUDAコードを生成するOpenMP処理系の提案
ログ情報に基づくGrid上でのMPIアプリケーションにおけるタスク割り当て手法の提案とその評価
Alfred V. Aho and Jeffrey D. Ullman : Principles of Compiler Design, Addison Wesley (1977)(20世紀の名著名論)
SimCore/Alpha Functional Simulatorの設計と評価(プロセッサアーキテクチャ)
チューニング対象の限定による効率の良い性能可搬性向上手法

OMPCUDA : GPU向けOpenMPの実装(高性能計算)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク