パーシャルメッセージロギングを改善する耐故障性実現フレームワーク
スポンサーリンク
概要
- 論文の詳細を見る
近年のスーパーコンピュータにおけるノード数は近年ますます増加の一途をたどっている.それに伴い HPC システムにおける故障間隔は無視できない程に短くなり,長時間かかるアプリケーションの実行などにおいてはそれが深刻な問題になり得る.そしてその問題を解決するための耐故障性実現機構として連携チェックポインティングやメッセージロギング方式が提案されている.しかし,連携チェックポインティングでは故障発生時に全てのプロセスがチェックポイントまでロールバックするためにリソースの無駄を生じる.そして一方のメッセージロギング方式では,全ての通信ログを取って置かなければならないため,大きな通信オーバーヘッドがかかってしまう.その両方のデメリットを緩和するための方法として,プロセスをいくつかのクラスタに分割し,そのクラスタ内では連携チェックポインティング,クラスタ間ではメッセージロギングを採用するパーシャルメッセージロギングが提案されている.その中で本研究では,実行時の情報を用いて先行研究の問題点を解決し改善するためのフレームワークを提案する.まず先行研究では,プロセスのクラスタリングを行う為に必要な実行時の通信情報が与えられることを前提としているが,本フレームワークでは,アプリケーションのメインのループを指定してもらい,そのループの通信を解析することで適切なクラスタリングを取得する.また,先行研究ではグラフパーティショニングツールを用いているが,グラフバーティニングツールは汎用的なグラフ分割を対象にしており,プロセスのクラスタリングには比較的長い時間を要する.そこで本研究では,プロセスがどのようにノードに割り当てられているかの情報を利用することでより単純で高速にプロセスを分割するアルゴリズムを本フレームワーク上に実装する.そして,単純なステンシル計算をシミュレートするグラフ分割で提案手法の評価を行う.
- 2012-12-06
著者
-
石川 裕
東京大学大学院情報工学系研究科
-
石川 裕
東京大学
-
佐藤 三久
筑波大学計算科学研究センター
-
佐藤 三久
筑波大学システム情報工学研究科
-
石川 裕
東京大学大学院情報理工学系研究科|東京大学情報基盤センター
-
石川 裕
東京大学大学院情報理工学系研究科|東京大学情報基盤センター|理化学研究所計算科学研究機構
-
實本 英之
東京大学
-
轟 侑樹
東京大学大学院情報理工学系研究科
-
實本 英之
東京大学情報基盤センター
関連論文
- MPI通信ライブラリの最適化と性能評価(HPC-1:MPI,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- 分散ページングによる大規模仮想メモリ空間(クラスタ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- ファイルステージング再考 : オンデマンド化と高速化に向けたプロトタイプ実装の評価(ファイルシステム,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- ファイルサーバー独立な並列ファイルキャッシュ機構(ファイルシステム,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 並列プログラムの実行可搬性を実現するMPI通信ライブラリの設計(インターコネクト/MPI通信ライブラリ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 2.次世代高性能コンピュータシステム上の高信頼ソフトウェアシステムの開発支援技術(第1部:高い生産性を持つ高信頼ソフトウェア作成技術の開発,学と産の連携による基盤ソフトウェアの先進的開発)
- ソフトウェアによる精密ペーシング方式を用いたTCP通信性能の改善((フォトニック)IPネットワーク技術, (光)ノード技術, WDM技術, 一般)
- Gigabit Ethernet NIC の性能評価
- NUMA並列型クラスタ上での効率的なスケジューリング(並列プログラミング/スケジューリング,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- IPMI規格に基づく管理保守系システムソフトウェア(OS-3 : 高性能計算機)
- マルチコアクラスタ向け並列ファイルシステムアーキテクチャ(HPC-13:ファイルシステム,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- Etheretによるクラスタ上での分散共有メモリOpenMP Omni/SCASHの性能評価
- 6.SCore型クラスタ
- 再送制御を考慮した通信モデルの設計(HPC-10 : 適応環境での通信)
- リアルタイムパケットの通信制御(OS-4: 通信システム, 2005年並列/分散/協調処理に関する『武雄』サマー・ワークショップ(SWoPP武雄2005)-研究会・連続同時開催-)
- リアルタイムパケットの送信制御(ポスターセッション)
- マルチコアSHにおける複数カーネル実行機構の設計と実装(OS-2:カーネルとネットワーク,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- GridMPI^ Version 1.0の概要(HPC-10: 通信ライブラリ)
- RHiNETの高速通信ライブラリPMv2による評価
- RHiNETの高速通信ライブラリPMv2による評価
- 並列アプリケーション実行におけるTCP/IP通信挙動の解析 (インターネットコンファレンス2003論文集)
- グリッド上のコレクティブ通信アルゴリズム
- ストリーミング配信に対するソフトウェアペーシング方式の効果(有線/無線シームレスネットワーク,ネットワーク制御,無線通信一般)
- ギャップパケットを用いたソフトウェアによる精密ペーシング方式(ネットワーク)
- MPIライブラリと協調するTCP通信の実現(ネットワーク)
- IBM pSeriesにおけるGridMPIの実装と性能評価(通信ライブラリ, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2005))
- IBM pSeries における GridMPI の実装と性能評価
- GridMPIのためのTCP/IP輻輳制御実装方式の検討(OS-3:ネットワーク)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
- 並列プログラムの実行可搬性を実現するMPI通信ライブラリの設計(インターコネクト/MPI通信ライブラリ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 配列転置データ転送を高速化する10Gb Ethernetインタフェースカードの設計(ネットワーク)
- 高性能通信処理オフロードエンジンUZURA実現に向けて(HPC-6: 高速ネットワークとその応用)
- 10Gb Ethernetを用いた高性能通信機構の設計(HPC-6 : 通信ライブラリ)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
- 高い移植性を持つ最悪実行時間解析手法
- カーネルレベルMPI非同期集団通信機構の設計と実装
- テラスケールコンピューティングのための遠隔スワップシステムTeramem
- ファイルステージングシステムCatwalkのMPI-IO実装
- 周期タスクを対象とした最悪割り込み遅延予測(オペレーティングシステム・システムソフトウェア)
- 移植性の高い実行時間予測手法の設計と実装(ARC-7:性能予測,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
- 実行時間予測ツールの設計と実装(ARC-5: 性能予測, 2005年並列/分散/協調処理に関する『武雄』サマー・ワークショップ(SWoPP武雄2005)-研究会・連続同時開催-)
- GridMPI^の性能評価(HPC-6 : 通信ライブラリ)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
- 柔軟な負荷分散を可能にする分散型シングルIPクラスタ(OS-1 : 実行基盤)
- レイヤー7負荷分散のためのTCP接続移送機構
- レイヤー7負荷分散のためのTCP接続移送機構
- プライベートアドレスを有するクラスタ群のための高性能MPI通信リレー機構
- ファイルキャッシュシステムの有効性向上に向けた科学技術計算アプリケーションのI/O特性評価
- 移植性の高い最悪実行時間予測ツールRETASの設計と実装
- 移植性の高い最悪実行時間予測ツールRETASの設計と実装
- シームレスなMPI環境を実現するMPI-Adapterの設計と性能評価
- ヒューマノイド・ロボットのための実時間分散情報処理(実時間処理,組込システム及び一般)
- ヒューマノイド・ロボットのための実時間分散情報処理(実時間処理,組込システム及び一般)
- 分散ページングによる大規模仮想メモリ空間(クラスタ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- ファイルステージング再考 : オンデマンド化と高速化に向けたプロトタイプ実装の評価(ファイルシステム,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- SCoreクラスタ計算環境
- SMP環境におけるLinuxスケジューラの評価
- SMP環境におけるLinuxスケジューラの評価
- 電力制御スケジューラのプロトタイプ実装(OS-5 : 適応システム,2006年並列/分散/協調処理に関する『高知』サマー・ワークショップ(SWoPP高知2006)-研究会・連続同時開催-)
- 複数カーネル実行機構を利用したアプリケーション実行環境の設計と実装
- 複数カーネル実行機構を利用したアプリケーション実行環境の設計と実装
- MPI通信モデルに適した非同期通信機構の設計と実装(クラスタソフトウェア)
- MP1通信モデルに適した通信APIの設計と実装(HPC-7 : 通信ライブラリ)(2003年並列/分散/協調処理に関する『松江』サマー・ワークショップ(SWoPP松江2003))
- GridMPI-通信遅延を考慮したMPI通信ライブラリの設計(HPC-7 : 通信ライブラリ)(2003年並列/分散/協調処理に関する『松江』サマー・ワークショップ(SWoPP松江2003))
- WAN上の複数クラスタによる単一MPIアプリケーションの性能評価
- 移植性の高い最悪実行時間予測ツールRETASの設計と実装
- 移植性の高い最悪実行時間予測ツールRETASの設計と実装
- RHiNETによる共有メモリプログラミングのサポート
- PC間ネットワークによる共有アドレス空間を持つ並列処理システム
- 分散並列モンテカルロ木探索フレームワークの提案
- 超並列オブジェクトベース言語OCoreの並列計算機上での実装
- NUMA並列型クラスタ上での効率的なスケジューリング(並列プログラミング/スケジューリング,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- P-BusにおけるOSカーネル間通信機構の設計と実装(OS-2:カーネルとネットワーク,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- カーネル機能拡張のための抽象化レイヤP-Busの実装(セッション2:システム構成法)
- PBus : 柔軟なカーネル機能拡張のためのインタフェース(OS-3 : OS実装)
- 大規模メモリ空間の利用を支援する遠隔スワップメモリシステム(HPC-7 : データ管理)
- コモディティネットワークによる5GB/s通信の可能性(通信,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- コモディティネットワークによる5GB/s通信の可能性(通信,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- PC間ネットワークによる共有アドレス空間を持つ並列処理システム
- PC間ネットワークによる共有アドレス空間を持つ並列処理システム
- マルチコア向け複数カーネル実行機構におけるデバイス共有
- マルチコア向け複数カーネル実行機構におけるデバイス共有
- ファイルサーバー独立な並列ファイルキャッシュ機構(ファイルシステム,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 光インタコネクションネットワークを用いたコンピューテングクラスタの構想
- Windows NTクラスタ上でのMyrinetによる通信の実現
- C++テンプレートを使ったデータ並列ライブラリの効率化手法
- 分散環境におけるシームレス並列コンピューティングシステムの構想
- OS開発のためのメニーコアハードウェアシミュレータの設計と実装
- 耐故障分散ロック機構の設計と検証
- 広域分散環境を提供するHPCIネットワーク・認証・ユーザ管理支援基盤の設計
- 広域分散環境を提供するHPCI先端ソフトウェア運用基盤の設計
- 広域分散環境を提供するHPCIシステムソフトウェア基盤の設計概要と共有ストレージ構築
- ハイバネート中の仮想マシンに対する透過的アクセス機構
- メニーコア環境におけるキャッシュアウェア・オペレーティングシステムに向けて
- メニーコア環境におけるキャッシュアウェア・オペレーティングシステムに向けて
- ItaniumプロセッサによるSCoreクラスタ構築に関する検討(高性能計算及び一般)
- リアルタイムLinuxのための軽量割込み処理
- RWCPにおけるクラスタ開発記(計算機クラスタ)
- SCoreの紹介とインスト一ルの基礎知識
- HPCIのためのネットワーク・認証基盤(ネットワーク研究開発テストベッド運用・利用,一般)
- 高性能分散計算環境のための認証基盤の設計
- パーシャルメッセージロギングを改善する耐故障性実現フレームワーク
- パーシャルメッセージロギングを改善する耐故障性実現フレームワーク