マルチコアPCクラスタ向けAll-to-all通信アルゴリズムの提案と評価
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,マルチコアPCクラスタ上でのAll-to-all通信性能の最適化について述べる.既存のAll-to-all通信アルゴリズム(Ringアルゴリズム)を使用してマルチコアPCクラスタでAll-to-all通信を行うと,シングルコア使用時と比較して実効通信バンド幅が低下する.All-to-all通信中の詳細な挙動調査を実施した結果,その原因がネットワークスイッチ内で発生するHead-of-line(HoL)ブロッキングであることが明らかとなった.このHoLブロッキング発生を回避する2-Level Ringアルゴリズムを提案する.24台のIAサーバを1台のInfinBandスイッチで接続したマルチコアPCクラスタ上で性能を評価した結果,2-Level RingアルゴリズムでAll-to-all通信中の実効通信バンド幅は最大24%向上することが分かった.さらに,NPB FTとISの処理性能は最大7%向上することを確認した.
- 2010-09-17
著者
-
成瀬 彰
富士通研究所
-
住元 真司
富士通研究所
-
久門 耕一
富士通研究所
-
中島 耕太
富士通研究所
-
中島 耕太
株式会社富士通研究所
-
住元 真司
(株)富士通研究所
-
住元 真司
株式会社富士通研究所
-
久門 耕一
株式会社富士通研究所
-
成瀬 彰
株式会社富士通研究所
-
久門 耕一
富士通研究所人工知能研究部
-
久門 耕一
(株)富士通研究所itコア研究所itアーキテクチャ研究部
-
久門 耕一
富士通研究所itシステム研究所
-
久門 耕一
(株)富士通研究所マルチメディアシステム研究所
-
久門 耕一
富士通研
-
住元 真司
富士通
関連論文
- GPGPU上での流体アプリケーションの高速化手法 : 1GPUで姫野ベンチマーク60GFLOPS超(高性能計算とアクセラレータ)
- 大規模InfiniBandシステムにおける経路更新手法の提案(ネットワーク技術,2009年並列/分散/協調処理に関する『仙台』サマー・ワークショップ(SWoPP仙台2009))
- ファイルステージング再考 : オンデマンド化と高速化に向けたプロトタイプ実装の評価(ファイルシステム,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 並列プログラムの実行可搬性を実現するMPI通信ライブラリの設計(インターコネクト/MPI通信ライブラリ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- RDMA Storage I/O 向けカーネル通信 API の設計(ストレージ)
- 2.次世代高性能コンピュータシステム上の高信頼ソフトウェアシステムの開発支援技術(第1部:高い生産性を持つ高信頼ソフトウェア作成技術の開発,学と産の連携による基盤ソフトウェアの先進的開発)
- 時系列データの統計解析によるPCクラスタシステム解析手法の提案(クラスタシステム)
- キャッシュミス削減によるLinuxプロセススケジューラの高速化(アーキテクチャとシステムソフトウェア)
- NUMAマシンでのコマーシャルワークロード向けLinux最適化(並列処理)
- LinuxカーネルのNUMA向け最適化
- Xeonプロセッサ向けLinpackベンチマーク最適化手法とその評価(性能最適化)
- 高速通信機構PM2の設計と評価
- 既存OSの枠組みを用いたクラスタシステム向け高速通信機構の提案(特集:システムソフトウエアの新しい潮流)
- ソフトウェア分散共有メモリシステムにおけるページ転送方式の比較(並列処理)
- GigaE PM: Gigabit Ethernetを用いた高速通信機構の設計と評価(並列処理)
- ソフトウェア分散共有メモリSCASHにおけるページ管理ノードの動的再配置機構の実装と評価
- クラスタ上のプログラミング開発環境 : SCoreクラスタシステムソフトウェア
- GigaE PM II: Gigabit Ethernetによる高速通信ライブラリの設計
- Gigabit Ethernet NICの性能評価
- Gigabit Ethernet NIC の性能評価
- Myrinetを用いた分散共有メモリシステムの評価
- SMPクラスタ上でのMPIの実装と評価
- Gigabit Ethernetを用いた高速通信ライブラリの設計
- T2Kオープンスパコン仕様と富士通のT2K仕様準拠の計算ノード Fujitsu HX600
- PM/InfiniBand-FJ : InfiniBandを用いた大規模PCクラスタ向け高性能通信機構の設計(ネットワーク)
- メモリトレースを元にした大規模サーバの性能予測
- 2000-ARC-139-1 メモリバストレースを用いた共有バス型並列計算機のキャッシュ評価
- 4H-7 GATESによるCommercial Workloadアクセスパターンの分析
- 4H-6 GATES(PCサーバ用汎用メモリアクセストレースシステム)の開発
- 6.SCore型クラスタ
- SANを用いた高性能コンピュータシステムの将来像と究極の姿(パネル討論,計算システムとファイルシステム,SANを用いた高性能コンピュータシステム,及び一般)
- 並列プログラムの実行可搬性を実現するMPI通信ライブラリの設計(インターコネクト/MPI通信ライブラリ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 10Gb Ethernet上のRDMA転送機能による仮想マシン移動の設計と評価(クラスタシステム)
- 10Gb Ethernet上のRDMAを用いた遠隔スワップメモリの実装(一般,SANを用いた高性能コンピュータシステム,及び一般)
- 10Gb Ethernet上のRDMA転送機能の仮想マシン移動への適用(一般,SANを用いた高性能コンピュータシステム,及び一般)
- Gigabit Ethernet NICの性能評価
- Gigabit Ethernet NICの性能評価
- 並列推論マシンPIM/pのアーキテクチャ
- 並列推論マシンPIM/pの要素プロセッサにおける分岐機能の高速化のためのアーキテクチャ
- 並列推論マシンPIM/pのネットワーク
- 配列転置データ転送を高速化する10Gb Ethernetインタフェースカードの設計(ネットワーク)
- 高性能通信処理オフロードエンジンUZURA実現に向けて(HPC-6: 高速ネットワークとその応用)
- 10Gb Ethernetを用いた高性能通信機構の設計(HPC-6 : 通信ライブラリ)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
- 姫野ベンチマークによるItanium[○!R]2とXeon^の性能比較とその分析
- Linuxテクノロジの最先端 (特集:EJB&Linux) -- (Linux)
- LinuxカーネルのNUMA向け最適化
- Fat-Tree構成InfiniBandネットワークにおける競合回避手法の提案
- InfiniBandにおける最適なアドレス割り当てによる経路更新処理の高速化
- 通信量を考慮したデッドロック回避ルーティング方式
- Fat-Tree構成InfiniBandネットワークにおける競合回避手法の提案
- マルチコアPCクラスタ向けAll-to-all通信アルゴリズムの提案と評価
- マルチコアPCクラスタ向けAll-to-allアルゴリズムの提案と評価
- マルチコアPCクラスタ向けAll-to-allアルゴリズムの提案と評価
- InfiniBandにおける最適なアドレス割り当てによる経路更新処理の高速化
- 並列UnixOSの試作と評価
- ファイルステージングシステムCatwalkのMPI-IO実装
- PACS-CSにおける隣接通信性能の高速化(HPC-13 : 通信II)
- PACS-CSのための高性能通信ライブラリインターフェイスの設計(HPC-12 : 大規模運用システム(2))
- 多段スイッチInfiniBandネットワークにおける全対全通信性能の評価
- ファイルキャッシュシステムの有効性向上に向けた科学技術計算アプリケーションのI/O特性評価
- 科学技術計算用超並列クラスタPACS-CSの実装と基本性能評価(HPC-12 : 大規模運用システム(2))
- シームレスなMPI環境を実現するMPI-Adapterの設計と性能評価
- ファイルステージング再考 : オンデマンド化と高速化に向けたプロトタイプ実装の評価(ファイルシステム,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- SCoreクラスタ計算環境
- 編集にあたって(コンピュータ将棋の新しい動き)
- 編集にあたって
- 3A-1 計算センタ高稼働率とジョブ待機時間短縮を実現するジョブスケジューラ(ハイパフォーマンスコンピューティング,一般セッション,アーキテクチャ,情報処理学会創立50周年記念)
- 多段スイッチ InfiniBand ネットワークにおける全対全通信性能の評価
- 4A-3 性能データの可視化分析ツール(設計・検証技術,一般セッション,アーキテクチャ,情報処理学会創立50周年記念)
- 4A-2 電力ベースサンプリングシステムPARITSの評価(設計・検証技術,一般セッション,アーキテクチャ,情報処理学会創立50周年記念)
- 4A-1 電力ベースサンプリングシステムPARITSの提案(設計・検証技術,一般セッション,アーキテクチャ,情報処理学会創立50周年記念)
- マルチコアPCクラスタ向け All-to-all アルゴリズムの提案と評価
- マルチコアPCクラスタ向け All-to-all アルゴリズムの提案と評価
- 計算機ハードウェアの動向(ガスタービンに関連するCFD(数値流体力学)解析の現状)
- 通信ライブラリPMのUDP上への移植と評価
- 通信ライブラリPMのUDP上への移植と評価
- 通信ライブラリPMのUDP上への移植と評価
- 複数Gigabit Ethernetを用いたPACS-CSのための高性能通信機構の設計と評価(ネットワーク)
- PACS-CSのためのEthernetを用いた高性能通信機構の設計(HPC-8: 高性能クラスタ)
- 10Gb Ethernet上の通信プロトコル作成支援技術(OS-3 : 高性能計算機)
- 次世代高性能計算機アーキテクチャ上のシステムソフトウェア開発環境(OS-3 : 高性能計算機)
- 大規模コンピュータシステムにおけるインタコネクト技術の動向(コンピュータシステムのインタコネクト技術及び一般)
- SANを用いた高性能コンピュータシステムとその課題
- SANを用いた高性能コンピュータシステムとその課題(ハードウェアとOS,SANを用いた高性能コンピュータシステム,及び一般)
- クラスタシステム向け共有ファイルシステムの実現と評価
- クラスタシステム向け共有ファイルシステムの提案
- メモリ消費電力に基づくCPU周波数の動的制御
- 高帯域と低遅延を両立するFat Tree結線方式の提案
- 次世代グリーンデータセンターの全体像 (特集 研究開発最前線)
- de novo assembler Velvetのメモリ使用量を削減するプロセス並列手法
- 通信量バランスの良いデッドロック回避ルーティング手法の提案とクラスタネットワークにおける評価 (コンピューティングシステム Vol.4 No.4)
- メモリ消費電力に基づくCPU周波数動的制御手法の評価
- 次世代高性能並列計算機のためのシステムソフトウェアスタック
- メニーコア向けNUMA最適並列分散I/Oの予備検証
- 次世代高性能並列計算機のためのシステムソフトウェアスタック
- メニーコア向けNUMA最適並列分散I/Oの予備検証
- グローバルデータ構造のためのメモリ管理モデルの検討
- 次世代高性能計算機システムのためのシステムソフトウェア実現にむけて
- ACP基本層の実装と初期評価
- ACP基本層の設計思想とインタフェース