通信オーバーラップを考慮したアプリケーションレベルチェックポイントフレームワーク(システムのディペンダビリティ,2012年並列/分散/協調処理に関する『鳥取』サマー・ワークショップ(SWoPP鳥取2012))
スポンサーリンク
概要
- 論文の詳細を見る
大規模HPC環境では、要素数の増加や、高密度低電力実装の影響により、システムの故障率は大きく増加しており、アプリケーションを実行するに当たり、故障対応が必須要件になっている。故障対応アルゴリズムのコストを極限まで削減するためには、アプリケーション毎に適したアルゴリズムを適用することが重要である。故障対応アルゴリズムの一つであるチェックポイント/リスタートもアプリケーションからのアドバイスを用いることにより、チェックポイントデータ量、並列プロセスの一貫性保証において最適化が可能になるが、アプリケーションの構造により決定する一貫性保証アルゴリズムによってチェックポイントの位置を決めてしまうと、本来実行環境といった外的要因から算出される最適なチェックポイント間隔を適用しづらくなってしまう。このため、一貫性保証アルゴリズムとチェックポイント間隔最適化アルゴリズムを併用可能な仕組みを提案した。また非同期通信を用いた通信オーバーラップがある場合、チェックポイント可能な候補位置を設定するのに制限を受ける。このため、非同期通信を中断するナイーブな手法について提案した。
- 2012-07-27
著者
関連論文
- 大規模SMP並列スーパーコンピューター(HITACHI SR16000モデルM1)の性能評価
- パーシャルメッセージロギングを改善する耐故障性実現フレームワーク
- パーシャルメッセージロギングを改善する耐故障性実現フレームワーク
- 通信オーバーラップを考慮したアプリケーションレベルチェックポイントフレームワーク(システムのディペンダビリティ,2012年並列/分散/協調処理に関する『鳥取』サマー・ワークショップ(SWoPP鳥取2012))