自動テンポラルブロッキングによる大規模ステンシル計算の実現
スポンサーリンク
概要
- 論文の詳細を見る
偏微分方程式を解く際に差分法を用いるとステンシル計算に帰着する.この計算は高いメモリバンド幅を要求するため GPU を用いることで高速化が可能である.しかし GPU メモリ容量は小さく,大規模な問題を解く際に GPU メモリ容量が制限となってしまう.この問題に対して,テンポラルブロッキングを行うことで性能低下なく GPU メモリ容量以上の大きなドメインを解くことができることを示す先行研究があるが,プログラミングコストが高いという問題を抱えている.そこで,本研究ではこのテンポラルブロッキングをフレームワークに組み込むことで自動最適化を実現した.また,ブロッキング段数などのパラメータの最適値を導出するために性能モデルを構築した.
- 2014-02-24
著者
関連論文
- 5K-7 情報爆発に対応するスケーラブルかつ自律的な障害解析(情報爆発時代における分散システム技術,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 四種プロセッサからなるヘテロ型スーパーコンピュータにおけるLinpackチューニング(並列アプリケーション実装,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- GPU向けソフトウェアECCの性能評価(GPU,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 四種プロセッサからなるヘテロ型スーパーコンピュータにおけるLinpackチューニング(並列アプリケーション実装,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- GPU向けソフトウェアECCの性能評価(GPU,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- GPU向けソフトウェアECCの性能評価 (計算機アーキテクチャ・ハイパフォーマンスコンピューティング・「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- ソフトウェアECCによるGPUメモリの耐故障性の実現と評価(信頼性とセキュリティ,SWoPP佐賀2008-2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ)
- PCクラスタ向け故障発生器の設計と実装(2004年並列/分散/協調処理に関する「青森」サマーワークショップ(SWoPP青森2004))
- OpenCLを用いた異種GPUにおける性能特性に応じた最適化
- OpenCLを用いた異種GPUにおける性能特性に応じた最適化
- GPU向け耐メモリエラーソフトウェアフレームワーク
- GPU向け耐メモリエラーソフトウェアフレームワーク
- GPUにおける耐故障性を考慮した数値計算の電力性能
- ステンシル計算を対象とした大規模GPUクラスタ向け自動並列化フレームワーク
- GPUにおけるモデルに基づいた電力効率の最適化
- ステンシル計算を対象とした大規模GPUクラスタ向け自動並列化フレームワーク
- GPUにおけるモデルに基づいた電力効率の最適化
- 異種アクセラレータを持つヘテロ型スーパーコンピュータ上のLinpackの性能向上手法
- GPUクラスタを対象にした並列ステンシル計算の自動生成フレームワーク
- GPUクラスタを対象にした並列ステンシル計算の自動生成フレームワーク
- GPUにおける性能と消費電力の相関性の解析
- 性能モデルに基づくCPU及びGPUを併用する効率的なFFTライブラリ
- 仮想クラスタを用いた複数サイト上でのMPI実行環境(仮想クラスタ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- 仮想クラスタを用いた複数サイト上でのMPI実行環境(仮想クラスタ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- GPU向け耐メモリエラーソフトウエアフレームワーク
- GPU向け耐メモリエラーソフトウエアフレームワーク
- 5K-3 情報爆発時代におけるモデルベース資源選択による高速な仮想クラスタ構築(情報爆発時代における分散システム技術,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 仮想クラスタ構築時間のモデリングおよびその最適化(ネットワーク)
- キャッシュを用いた仮想クラスタ高速構築手法の性能評価(仮想クラスタ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- キャッシュを用いた仮想クラスタ高速構築手法の性能評価(仮想クラスタ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- 大規模分散システムにおける故障の解析(解析・省電力,SWoPP2006)
- CPU/GPUを共用したヘテロジニアス環境におけるFMMの最適化
- 動的タスクスケジューリングによるCPU/GPUヘテロジニアス環境でのFMMの最適化
- 動的タスクスケジューリングによるCPU/GPUヘテロジニアス環境でのFMMの最適化
- TSUBAME 2.0の全貌
- TSUBAME 2.0の全貌
- 動的タスクスケジューリングによるCPU/GPUヘテロジニアス環境でのFMMの最適化
- 動的タスクスケジューリングによるCPU/GPUヘテロジニアス環境でのFMMの最適化
- 動的タスクスケジューリングエンジンStarPUによるKIFMMの実装と性能評価
- システム評価のためのアプリケーション性能リポジトリの構築と性能モデルの評価
- CPU-GPUそれぞれに最適なデータレイアウトを選択可能にするOpenACCディレクティブ拡張
- 自動テンポラルブロッキングによる大規模ステンシル計算の実現