OpenCLによるGPUコンピューティングの性能評価
スポンサーリンク
概要
- 論文の詳細を見る
近年,従来の CUDA に加えて,GPGPU プログラミングのための新たな標準プログラミング環境として OpenCL が利用可能となった.本論文では,CUDA と OpenCL のプログラムの実行性能差を定量的に評価する.まず,ほぼ同等の処理を行う CUDA と OpenCL のプログラムを実装し,性能を比較する.次に,その性能差の主要因を調査し,CUDA コンパイラではサポートされているいくつかのコンパイラ最適化手法が,現在の OpenCL コンパイラではサポートされていないことを明らかにする.最後に,OpenCL コンパイラで生成されるコードを手動で最適化することによって CUDA と同等の性能を達成できた結果から,今後の OpenCL コンパイラの最適化機能が強化されることにより,CUDA コードを OpenCL に単純変換するだけでも,CUDA と同等の性能を達成できる可能性が示された.
- 2010-02-15
著者
-
滝沢 寛之
東北大学
-
小林 広明
東北大学
-
佐藤 功人
東北大学大学院情報科学研究科
-
滝沢 寛之
東北大学大学院情報科学研究科
-
小林 広明
東北大学サイバーサイエンスセンター
-
小林 広明
東北大学サイバーサイエンスセンター|科学技術振興機構戦略的創造研究推進事業
-
荒井 勇亮
東北大学工学部機械知能・航空工学科
-
荒井 勇亮
東北大学工学部 機械知能・航空工学科
-
滝沢 寛之
東北大学大学院 情報科学研究科
関連論文
- 広域ベクトルコンピュータ連携による次世代HPC基盤の構築(3.2 第8回情報シナジー研究会, 3. 研究活動報告)
- 10.GPUコンピューティングにおけるソフトウェア自動チューニング(ソフトウェア自動チューニング技術の応用,科学技術計算におけるソフトウェア自動チューニング)
- GPU向け線形代数ライブラリの性能評価
- GPUを効率的に利用するための言語拡張と自動最適化手法(HPC-12:言語処理系,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- GPUコンピューティングのためのストリーム処理記述言語
- ニューラルネットワーク(クロストークリンク付きBPD)のFSK復調への応用
- 大規模計算環境における分散協調型負荷分散手法(分散システム構築運用技術,新しいパラダイムの中での分散システム/インターネット運用・管理)
- RC-006 ウェイアロケーション型共有キャッシュ機構のハードウェア設計に関する研究(ハードウェア・アーキテクチャ,査読付き論文)
- I-004 フォトンマップ分割に基づく並列画像生成アルゴリズム(I分野:グラフィクス・画像)
- LC-010 SMTプロセッサの実行時性能予測のためのハードウェアリソース競合解析(ハードウェア・アーキテクチャ)
- LC-006 消費電力を考慮したウェイアロケーション型共有キャッシュ機構(ハードウェア・アーキテクチャ)
- ウェイアロケーション型共有キャッシュ機構の性能評価(ARC-2 : キャッシュメモリ,2007年並列/分散/協調処理に関する『旭川』サマー・ワークショップ(SWoPP旭川2007))
- 実行時性能予測に基づくCPUとGPUへの動的タスク割当の検討(ハードウェア・アクセラレータ)
- LL_007 P2P型資源検索システムにおける動的論理リンク管理機構(L分野:ネットワークコンピューティング)
- LC_006 スレッド特微量に基づくマルチコアプロセッサスケジューリング(C分野:ハードウェア)
- LA-006 大規模P2Pシステムにおける計算資源探索のモデル化と性能評価(A分野:モデル・アルゴリズム・プログラミング)
- HPC Challengeベンチマークを用いたSX-7システムの性能評価(HPCハードウェア)
- ベクトル量子化用コードブック生成のための並列弱肉強食アルゴリズムの性能解析
- LJ-11 視覚的画質劣化を抑制するベクトル量子化手法(J. グラフィクス・画像)
- ベクトル量子化のためのコードブック生成並列処理に関する研究
- ベクトル量子化のための並列コードブック生成アルゴリズムの性能評価(2.第1回情報シナジー研究会)
- 多層パーセプトロンの分類能力向上法に関する一検討
- ニューラルネットワークを利用した自動表情認識システム
- A-19-4 音声による計算機利用支援のための文字情報識別に関する一考察
- D-11-73 レイトレーシングハードウェアのための交差判定器の計算精度に関する一考察
- 東北大学サイバーサイエンスセンターの取り組みとSX-9の性能評価 (スーパーコンピュータSX-9特集)
- 大規模科学計算システムの構築と運用(2.第1回情報シナジー研究会)
- OpenCLによるGPUコンピューティングの性能評価
- CUDAアプリケーション向けチェックポイント・リスタート機能の実装と評価
- 実アプリケーションを用いたチップマルチベクトルプロセッサの消費エネルギ評価
- 実アプリケーションを用いたチップマルチベクトルプロセッサの消費エネルギ評価
- CUDAアプリケーシヨン向けチェックポイント・リスタート機能の実装と評価
- キャッシュメモリを有するベクトルプロセッサのためのプログラム最適化手法
- キャッシュメモリを有するベクトルプロセッサのためのプログラム最適化手法
- OpenCL によるGPUコンピューティングの性能評価
- ワーキングセット評価に基づくスレッドスケジューリング
- ワーキングセット評価に基づくスレッドスケジューリング
- F0103(4) Cellによる高性能計算の可能性を探る([F0103]計算力学の新たな潮流-GPGPU,FPGA,CELLコンピューティング-,先端技術フォーラム)
- C-023 プロセッサ自動選択機能を有するBLASの実現に向けた性能評価(ハードウェア・アーキテクチャ,一般論文)
- RC-008 ボランティアコンピューティングの高効率化ためのクライアントレベルスケジューリング(ハードウェア・アーキテクチャ,査読付き論文)
- SPRAT:実行時自動チューニング機能を備えるストリーム処理記述用言語
- ポジション・ディスプレイ・マップによる知識表現
- 動的負荷分散機能を持つ高性能ボランティアコンピューティングの実現
- プログラム自動生成技術に基づくGPUコンピューティングの性能評価
- 機械構造の階層性に基づいた機械設計向き知識ベースに関する検討
- 3次元積層型乗算器の回路分割手法に関する研究(学生・若手研究会)
- 624 消費エネルギを考慮したGPUコンピューティングの検討(OS3.GPGPUコンピューティング(3),オーガナイズドセッション)
- Prolog言語の階層処理システムとその評価
- マイグレーションによる複合型計算システム向けジョブスケジューリング (コンピューティングシステム Vol.4 No.4)
- OpenCLにおけるタスク並列化支援のための実行時依存関係解析手法 (コンピューティングシステム Vol.5 No.1)
- メタ情報拡散に基づくP2P型自己組織化サービス資源検索機構(ネットワーク応用,インターネット技術とその応用論文)
- 統合開発環境と連携するポータブルなビルドシステム
- HPCアプリケーションの性能可搬性に関する一検討
- ナノ粒子群形成アプリケーションのOpenACCによる実装と性能評価
- 3次元積層型浮動小数点乗算器の回路分割手法に関する研究(高速デジタルLSI回路技術,デザインガイア2011-VLSI設計の新しい大地-)
- 3次元積層型浮動小数点乗算器の回路分割手法に関する研究(高速デジタルLSI回路技術,デザインガイア2011-VLSI設計の新しい大地-)
- 大規模並列システムのノード間通信を考慮した性能モデルに関する一検討
- 履歴情報に基づくジョブスケジューリングによる広域ベクトルコンピュータ連携の実現
- 大規模並列システムのノード間通信を考慮した性能モデルに関する一検討
- メタ情報拡散に基づくP2P型自己組織化サービス資源検索機構
- 3次元積層型浮動小数点乗算器の回路分割手法に関する研究
- 3次元積層型浮動小数点乗算器の回路分割手法に関する研究
- チューニング対象の限定による効率の良い性能可搬性向上手法
- ブロックバイパス機構によるキャッシュのエネルギ効率化に関する研究
- マルチプラットフォームにおける最適化手法の効果に関する一検討
- ソフトウェア進化のための自動性能追跡システム
- 履歴情報に基づくジョブスケジューリングによる広域ベクトルコンピュータ連携の実現(ネットワーク研究開発テストベッド運用・利用,一般)
- 10.6 複合システムにおけるチェックポイントリスタート(第10章:将来の課題,ディペンダブルVLSIシステム)
- 6.4 三次元LSIの課題と高信頼化(第6章:コネクティビティ,ディペンダブルVLSIシステム)