Performance Enhancement for Matrix Multiplication on an SMP PC Cluster
スポンサーリンク
概要
- 論文の詳細を見る
Our study proposes a Reducing-size Task Assignation technique (RTA), which is a novel approach to solve the grain-size problem for the hybrid MPI-OpenMP thread-to-thread (hybrid TC) programming model in performing distributed matrix mulitplication on SMP PC clusters. Applying RTA, hybrid TC achieves an acceptable computation performance while retaining the dynamic task scheduling capability, thereby it can yield a 22% performance improvement for a 16-node cluster of Xeon dual-processor SMPs in comparison with the pure MPI model. Moreover, we provide formulas to predict hybrid TC performance in different circumstances.
- 一般社団法人情報処理学会の論文
- 2005-08-03
著者
-
吉永 努
電気通信大学大学院情報システム学研究科
-
吉永 務
宇都宮大学工学部
-
Viet T
Graduate School Of Information Systems University Of Electro-communications
-
VIET TA
電通大
-
YOSHINAGA TSUTOMU
電通大
-
ABDERAZEK BEN
電通大
関連論文
- 低遅延オンチップネットワークのための予測ルータの評価(組込みシステムプラットフォーム)
- 6ZD-4 マルチリンクEthernet環境におけるSMPクラスタの性能評価(ネットワークと専用アーキテクチャ,学生セッション,アーキテクチャ)
- 動的故障に対応する並列計算機用適応ルータに関する検討(ディペンダブルコンピュータシステム及び一般)
- 耐故障・適応デッドロック回復ルーチングのためのネットワーク再構成プロトコル(コンピュータシステム)
- コンパイラとランタイムによるソフトウェアキャッシュの更新オーバヘッド隠蔽手法
- 並列計算機ノードのシステムオンチップ化とその性能
- 3H-3 システムオンチップ化ノードで構成する並列計算機の初期的検討
- 低遅延オンチップネットワークのための予測ルータの評価
- 1H-7 FPGAを用いた手書き漢字認識ニューラルネットの認識率に関する考察
- 自己組織化学習アルゴリズムのFPGAシステムによる高速化
- 自己組織化学習アルゴリズムのFPGAシステムによる高速化
- 自己組織化学習アルゴリズムのFPGAシステムによる高速化
- FPGAを用いた手書き漢字認識ニューラルネットのハードウェア支援
- 低遅延オンチップネットワークのための予測ルータの評価(組込みシステムプラットフォーム)
- 低遅延オンチップネットワークのための予測ルータの評価(組込みシステムプラットフォーム)
- 予測機構を持つルータを用いた低遅延チップ内ネットワークに関する研究
- 予測ルータによる低遅延Fat Treeネットワーク
- キュー計算原理によるSMT型マルチスレッド並列キュープロセッサの提案と設計(アーキテクチャ)
- キュー計算原理によるSMT型マルチスレッド並列キュープロセッサの提案と設計
- C-026 携帯端末とネットワーク上計算資源の協調によるカメラセンサアプリ高速化の検討(C分野:ハードウェア・アーキテクチャ,一般論文)
- PCクラスタによる行動支援サービスプラットフォームZeoBroの初期実装と評価(ホームネットワーク,ユビキタスネットワーク,クラウドコンピューティング,コンテキストアウェア,位置情報サービス,eコマース及び一般)
- メニーコア時代に向けたインオーダ・アーキテクチャ再考(システムアーキテクチャ2,デザインガイア2010-VLSI設計の新しい大地-)
- 2ZP-5 未知のSQLインジェクション攻撃検知システムの構築(情報爆発時代における分散処理と運用技術,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 2-Dトーラスネットワークにおける動的通信予測による低遅延化
- 通信予測機構を用いた低遅延ネットワークの構成方法と評価(予測及び通信機構)
- ルールベースアクセス制御機能を持つDLNA情報家電の遠隔共有支援機構
- 2ZP-3 資源情報の特徴抽出によるモデル化手法と攻撃検知法の提案(情報爆発時代における分散処理と運用技術,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- B-022 GCCによるキュー・コンパイラ開発手法の提案(B分野:ソフトウェア)
- 耐故障・適応ルーティングのセルフチューニングに関する検討
- 耐故障・適応ルーティングのセルフチューニングに関する検討(ディペンダブルコンピュータシステム及び一般)
- 耐故障・適応ルーティングのセルフチューニングに関する検討(ディペンダブルコンピュータシステム及び一般)
- キャンパスP2Pネットワークにおけるパーソナライズド検索(ネットワーク, 組込技術とネットワークに関するワークショップ)
- キャンパスP2Pネットワークにおけるパーソナライズド検索
- 耐故障性を考慮したk-ary n-cube用適応デッドロック回復ルーティング(ネットワーク)
- C-029 Verilog-HDLによる並列キュープロセッサのデザイン(C.アーキテクチャ・ハードウェア)
- 並列キュー計算モデルの基本特性評価(CPSY-3 性能評価)(2004年並列/分散/協調処理に関する「青森」サマーワークショップ(SWoPP青森2004))
- 動的故障に対応する並列計算機用適応ルータに関する検討(ディペンダブルコンピュータシステム及び一般)
- JXTAネットワークに対するユーザ認証およびアクセス制御の導入
- Qjavaプロセッサの基本設計(デペンダブルコンピュータシステム及び一般)
- QJavaプロセッサの基本設計(ディペンダブルコンピュータシステム及び一般)
- Recover-x適応ルーティング(並列処理)
- 並列デッドロック回復ルータRecover-xの性能評価
- RTL設計による並列計算機ルータの評価
- 2H-8 逐次コードにおける複数パス投機実行のためのスレッド生成
- 並列オブジェクト指向トータルアーキテクチャ A-NET のためのトポロジ独立なルータの構成
- MPIとマルチスレッドによる静的タイミング解析の並列処理
- MPIとマルチスレッドによる静的タイミング解析の並列処理
- WSクラスタを用いた並列論理回路タイミング解析の高速化
- 並列オブジェクト指向言語A-NETLの実現とその評価
- Optimization for Hybrid MPI-OpenMP Programs with Thread-to-thread Communication (2004年並列/分散/協調処理に関する「青森」サマーワークショップ(SWoPP青森2004))
- Mobile-Wormhole Device : DLNA情報家電の相互遠隔接続支援機構の携帯端末への応用(UBI-1【ホームネットワーク/実世界インタフェース】)
- Mobile-Wormhole Device : DLNA情報家電の相互遠隔接続支援機構の携帯端末への応用(UBI-1【ホームネットワーク/実世界インタフェース】)
- 受信メッセージ予測法によるMPI受信処理の高速化
- 受信メッセージ予測法における予測方式の検討
- 2000-ARC-139-13 異なるプラットフォームにおける受信メッセージ予測法の性能評価
- A-NETマルチコンピュータにおける仮想時間を用いた性能評価法とその実現 (並列処理)
- 3F-4 複数プラットフォーム上での受信メッセージ予測法の評価
- 受信メッセージ予測法によるノード間通信の高速化 : 予測方式の検討
- メッセージ転送処理の高速化法とその評価(並列処理)
- A-NETマルチコンピュータのシステム性能評価
- 受信メッセージ予測によるユーザプログラムの実行性能
- 受信予測によるメッセージ転送処理の高速化
- 並列言語からみた並列計算機の通信アーキテクチャ
- 並列オブジェクト指向トータルアーキテクチャA-NET : PEの実装設計
- トポロジ独立な A-NET マルチコンピュータの通信性能
- D-6-4 キュー計算モデルを用いた並列プロセッサの設計
- A Parallel Navigation Algorithm with Dynamic Load Balancing for OODBMSs
- 2Dトーラスネットワークにおける動的予測ルーティング(ARC-6:相互結合網,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
- 並列キュープロセッサの基本設計
- 並列キュープロセッサの基本設計
- DT-2 CPSY企画セッション : 先進的コンピュータ・システムとその応用技術(チュートリアルセッション,ソサイエティ企画)
- 視覚神経系モデルシミュレーションの複数GPUによる高速化
- 3次元積層向けブロック配置問題の検討
- 3次元積層向けブロック配置問題の検討
- 視覚神経系数理モデルシミュレーションのMPIによる並列化
- クラウドによる携行可能な指先での署名認証システムの開発
- クラウドによる携行可能な指先での署名認証システムの開発
- Performance Enhancement for Matrix Multiplication on an SMP PC Cluster
- Construction of Hybrid MPI-OpenMP Solutions for SMP Clusters(System Software)
- D-6-8 Hybrid Compiler-Controlled Self-Adjustable Parallelism-Independent Scheduling Algorithm for Cluster of Workstations
- An Ambiguous, Context-Free Grammar for Deterministic Parsing In Queue-Java Compiler
- Fast, Effective Instruction Generation Algorithm For Queue-Java Compiler (QJAVAC)
- ネットワークコンピューティングのための包括的マッシュアップフレームワークの検討
- スマートフォンを用いた歩行動作改善ツールの開発
- 「覗き込み」を利用した直感的な外部ディスプレイアクセス方式の提案
- FPGAを用いたデータストリームに対するウィンドウジョインの検討(FPGAアクセラレーター,FPGA応用及び一般)
- FPGAを用いたデータストリームに対するウィンドウジョインの検討(FPGAアクセラレーター,FPGA応用及び一般)
- FPGAを用いたデータストリームに対するウィンドウジョインの検討(FPGAアクセラレーター,FPGA応用及び一般)
- D-6-9 Compiler Assisted Scheduling Scheme with Low-cost Runtime Support for Control Predicated ILP
- Design of Producer-order Parallel Queue Processor Architecture
- Design of Producer-order Parallel Queue Processor Architecture
- Design of Producer-order Parallel Queue Processor Architecture
- A Reduced Bit-Width Instruction Set Architecture for FQM Execution in Hybrid Processor Architecture (FaRM-rq)
- キューマシン用並列化Cコンパイラ
- SMPクラスタにおけるハイブリッドMPI-OpenMPプログラミングのためのマスタースレーブアルゴリズム
- PCクラスタによる行動支援サービスプラットフォームZeoBroの初期実装と評価
- ウィンドウ結合演算子のFPGAによる実現(スマートな社会を支えるインターネットアーキテクチャ論文)
- D-6-5 QJavaコンパイラ : 並列性を重視したQJavaバイトコードの生成
- D-6-6 QJavaバイトコードの実行環境の構築
- MPI埋め込み可能GPUプログラミングフレームワーク適用可能性の評価(並列処理支援,2011年並列/分散/協調処理に関する『鹿児島』サマー・ワークショップ(SWoPP鹿児島2011))