GPU向け耐メモリエラーソフトウェアフレームワーク

概要

論文の詳細を見る
我々はコモディティ GPU を対象とした耐 DRAM ソフトエラーを実現するソフトウェアフレームを提案する。同フレームワークは符号化によるビットフリップ等の DRAM ソフトエラーを検知する。エラーが検知された場合、ホスト側に取得済みのチェックポイントから GPU カーネルを再実行することでエラーからの復旧を実現する。同フレームワークを CUDA GPU 上で実装した場合の性能を評価し、エラーチェックによるオーバーヘッドは、行列積のような計算負荷の大きいカーネルでは 10 パーセント以下、3D FFT のようなメモリアクセス負荷の大きいカーネルにおいて 35% 程度で抑えられることを示す。
2009-11-23

著者

額田彰
東京工業大学学術国際情報センター
松岡聡
国立情報学研究所
松岡聡
東京工業大学
丸山直也
東京工業大学
松岡聡
東京工業大学:国立情報学研究所
額田彰
東京工業大学|jst Crest

関連論文

異種アクセラレータを持つTSUBAMEスーパーコンピュータのLinpack評価(GPGPUコンピューティングの数理)
CUDAによる高速フーリエ変換(GPGPUコンピューティングの数理)
四種プロセッサからなるヘテロ型スーパーコンピュータにおけるLinpackチューニング(並列アプリケーション実装,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
GPU向けソフトウェアECCの性能評価(GPU,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
四種プロセッサからなるヘテロ型スーパーコンピュータにおけるLinpackチューニング(並列アプリケーション実装,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
GPU向けソフトウェアECCの性能評価(GPU,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
GPU向けソフトウェアECCの性能評価 (計算機アーキテクチャ・ハイパフォーマンスコンピューティング・「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
ヘテロ並列環境のための省電力タスクスケジューリング(並列計算,SWoPP佐賀2008-2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ)
ソフトウェアECCによるGPUメモリの耐故障性の実現と評価(信頼性とセキュリティ,SWoPP佐賀2008-2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ)
複数GPUにおけるセルフスケジューリングによる並列数値演算(ARC-5:並列処理1,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
大規模計算環境におけるユーザ満足度を考慮した資源管理へむけて(並列処理環境,2009年並列/分散/協調処理に関する『仙台』サマー・ワークショップ(SWoPP仙台2009))
PoP(Point of Presence)によるe-サイエンスリソース連携 (インターネットアーキテクチャ)
スワップコストの動的推定によるメモリの省電力化手法(アクセラレーション/メモリシステム,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
ポータビリティの高いジョブスケジューリングシステム設計と実装(HPC-10 : ネットワークとスケジューリング)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
仮想クラスタを用いたData-Intensive Application実行環境の性能モデル構築と最適化(HPC-2:仮想クラスタ,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
Access Gridの構築とGrid上での国際会議
ヘテロ型スーパコンピュータTSUBAMEのLinpackによる性能評価(高性能計算)
情報爆発時代に向けた新しいIT基盤技術の研究(情報爆発時代に向けた新しいIT基盤技術の研究)
ヘテロ型スーパーコンピュータTSUBAMEのLinpackによる性能評価(HPC-3 : 大規模運用システム(1))
次世代光インターコネクトでのMPI通信に関する研究
プロセス間共通メモリイメージを考慮したマイグレーション最適化(並列/分散コンピューティング,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
1 アクセラレータ技術の影と光 : ペタ〜エクサの次世代HPCの中心的な躍進技術へ(アクセラレータ,再び-スパコン化の切り札-)
プロセス間共通メモリイメージを考慮したマイグレーション最適化 (計算機アーキテクチャ・ハイパフォーマンスコンピューティング・「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
四種プロセッサからなるヘテロ型スーパーコンピュータにおけるLinpackチューニング (計算機アーキテクチャ・ハイパフォーマンスコンピューティング・「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
3.情報爆発は情報システムをも「爆発」させる(パートI:情報爆発時代における新しい基盤技術,情報爆発時代におけるわくわくするITの創出を目指して)
NAREGIグリッドミドルウェアによる大規模連携接続実証実験(OS-6:分散システム,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
広域分散ファイルシステムにおけるアクセスパターンと性能を考慮したファイル配置(HPC-13:ファイルシステム,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
5K-4 情報爆発時代のグリッドファイルシステム上での大規模データ管理(情報爆発時代における分散システム技術,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
広域分散環境における大規模データ管理のためのノードグルーピング(HPC-7 : データ管理)
NAREGIミドルウェアβ-gLite間における相互ジョブ起動実験(グリッド,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
ファイルへのアクセスの自動分散を行うグリッド用分散ファイルシステム(グリッド(1), 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2005))
ファイルへのアクセスの自動分散を行うグリッド用分散ファイルシステム
レプリカ交換分子動力学シミュレータREMD Toolkitのグリッド上での実行(HPC-3 : 科学技術計算)(2003年並列/分散/協調処理に関する『松江』サマー・ワークショップ(SWoPP松江2003))
MPC++-on-MPIのコモディティクラスタ環境における評価
ORE Grid : 仮想計算機を用いたグリッド実行環境の高速な配置ツール(グリッド)
カスタマイズ可能な仮想計算機上におけるグリッドでのジョブ実行(仮想計算機とクラスタ技術, SWOPP武雄2005 (2005年並列/分散/協調処理に関する「武雄」サマー・ワークショップ))
Jojoによる遺伝的プログラミングの並列化(グリッド応用)
Javaによる階層型グリッド環境Jojoの設計と実装(グリッド基盤ソフト)
グリッド向け実行環境Jojoを用いた遺伝的アルゴリズムによる蛋白質構造決定
グリッド環境に適したJava用階層型実行環境Jojoの設計と実装(高性能計算及び一般)
Omni/SCASHにおける性能不均質なクラスタ向け動的負荷分散機能の実装と評価(HPC-3 : クラスタソフトウェア)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
Omni/SCASHにおける実行時性能評価に基づく動的負荷分散拡張の実装と評価
ソフトウェア分散共有メモリ上のOpenMP Omni/SCASHのSPLASH2による性能評価
グリッドチャレンジテストベッドの構築と運用 : グリチャレテストベッドの作り方(HPC-3 : 大規模運用システム(1))
ユーザによるレイアウトの適応的認識
OGSAアーキテクチャに基づくNAREGIスーパースケジューラの設計と実装(グリッド)
グリッド環境におけるスーパースケジューラ連携手法の検討(ジョブスケジューリング, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2005))
グリッド環境におけるスーパースケジューラ連携手法の検討
6K-3 情報爆発に対応する耐故障性MPIフレームワークの提案(情報爆発時代におけるスーパーコンピューティング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
フォールト/リカバリモデルを考慮した耐故障性をもつMPIフレームワークABARISの提案と評価(通信,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
フォールト/リカバリモデルを考慮した耐故障性をもつMPIフレームワークCuckoo FTMPIの提案と評価(アーキテクチャ,SWoPP2006)
ポータブルな耐故障性コンポーネントフレームワークを持つMPI実装に向けて(通信ライブラリ, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2005))
ポータブルな耐故障性コンポーネントフレームワークを持つMPI実装に向けて
Speculativeチェックポインティングの設計と実装(2004年並列/分散/協調処理に関する「青森」サマーワークショップ(SWoPP青森2004))
自律的な通信回復を行うFault Tolerant MPIの実装と評価(HPC-10 : クラスタソフトウェア)(2003年並列/分散/協調処理に関する『松江』サマー・ワークショップ(SWoPP松江2003))
光ネットワークの補助的利用によるHPC性能向上(HPC-4:性能評価,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
グリッド環境におけるMPI_Scatter/Gather通信アルゴリズムの最適化(HPC-1:MPI,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
6K-5 情報爆発時代の光インターコネクト上でのMPI通信アルゴリズム(情報爆発時代におけるスーパーコンピューティング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
6K-4 情報爆発時代のグリッド環境に対応したMPI集団通信アルゴリズムの最適化(情報爆発時代におけるスーパーコンピューティング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
6K-2 情報爆発時代へ向けた不均一アーキテクチャにおけるスーパーコンピューティング(情報爆発時代におけるスーパーコンピューティング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
Sun Fire X4500とGfarmを用いた大規模ストレージの構築(グリッドI)
TSUBAMEの1年
High-performance distributed solar computing (?): towards a grid that computes like trees (ハイパフォーマンスコンピューティング)
次世代省電力メモリを用いた並列プログラムの省電力化の評価(ARC-3 : 性能評価およびモデリング,2007年並列/分散/協調処理に関する『旭川』サマー・ワークショップ(SWoPP旭川2007))
次世代光インターコネクト上でのMPIアプリケーションの評価(HPC-11 : 通信I)
CPUおよびGPUを併用するFFTライブラリの提案と評価(HPC-1 : 最適化)
ICTは科学の発展に役立つのか? : 情報学A05班の挑戦(「情報学を創る」-科研プロジェクトがめざしたもの)
グリッド環境におけるマルチレーンを用いたMPIコレクティブ通信アルゴリズム(グリッド)
情報爆発時代における安全・安心ITシステム基盤(情報爆発時代に向けた新しいIT基盤技術の研究)
情報爆発時代における安全・安心ITシステム基盤
SANを用いた高性能コンピュータシステムの将来像と究極の姿(パネル討論,計算システムとファイルシステム,SANを用いた高性能コンピュータシステム,及び一般)
TSUBAMEの飛翔(Extended Abstract)(計算システムとファイルシステム,SANを用いた高性能コンピュータシステム,及び一般)
PCクラスタにおける電力実行プロファイル情報を用いたDVS制御による電力性能の最適化(クラスタシステム)
B-12-10 光バーストスイッチング技術のGridアプリケーションへの適用(B-12.フォトニックネットワーク,一般講演)
仮想計算機と仮想ネットワークを用いた仮想クラスタの構築
TSUBAMEの飛翔 : ペタスケールへ向けた「みんなのスパコン」の構築(HPC-3 : 大規模運用システム(1))
ディペンダビリティとセキュリティ : デバイス、アーキテクチャ、ソフトウェア(ディペンダブルプロセッサ,ディペンダブルコンピュータシステムとセキュリティ技術及び一般)
レプリカ管理システムを利用したデータインテンシブアプリケーション向けスケジューリングシステム(ジョブスケジューリング,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
大規模環境向け情報共有手法を用いた分散ジョブスケジューリングシステム(ジョブスケジューリング,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
光ネットワーク環境におけるMPI集団通信(分散共有メモリと通信ライブラリ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
PCクラスタにおける電力実行プロファイル情報を用いたDVS制御による電力性能の最適化(省電力,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
グリッド上における仮想計算機を用いたジョブ実行環境構築システムの高速化(グリッド,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
CUDAによる高速フーリエ変換
異種アクセラレータを持つTSUBAMEスーパーコンピュータの Linpack 評価
GPU向け耐メモリエラーソフトウェアフレームワーク
GPU向け耐メモリエラーソフトウェアフレームワーク
CUDA GPU向けの自動最適化FFTライブラリ
GPUにおける耐故障性を考慮した数値計算の電力性能
CUDA環境における高性能3次元FFT
ヘテロ型スーパーコンピュータTSUBAME 2.0のLinpackによる性能評価
ヘテロ型スーパーコンピュータTSUBAME 2.0のLinpackによる性能評価
GPUにおけるモデルに基づいた電力効率の最適化
GPUにおけるモデルに基づいた電力効率の最適化
GPUクラスタにおける省電力タスクスケジューリング
異種アクセラレータを持つヘテロ型スーパーコンピュータ上のLinpackの性能向上手法
GPUにおける性能と消費電力の相関性の解析
姫野ベンチマークのGPUマルチノード実行における通信と演算のオーバーラップによる高速化〜32GPUで700GFLOPS超を達成〜
GPU向け耐メモリエラーソフトウエアフレームワーク
GPU向け耐メモリエラーソフトウエアフレームワーク
姫野ベンチマークのGPUマルチノード実行における通信と演算のオーバーラップによる高速化 : 32GPUで700GFLOPS超を達成

GPU向け耐メモリエラーソフトウェアフレームワーク

スポンサーリンク

概要

著者

関連論文

スポンサーリンク