2000-ARC-139-32 OpenMPを用いた粗粒度並列処理
スポンサーリンク
概要
- 論文の詳細を見る
本論文では, 商用SMP上での粗粒度タスク並列処理の実現手法とその性能評価について述べる.粗粒度並列処理は, シングルチップマルチプロセッサからハイパフォーマンスコンピュータに至る広範囲のマルチプロセッサシステムにおいて, ループ並列性の限界を越えた性能を得るために重要である.本実現手法では, Fortranプログラムを粗粒度タスクに分割し, タスク制御・データ依存を考慮した並列性を解析した後, タスクをプロセッサに割り当てるダイナミックタスクスケジューリングルーチンを埋め込んだ, OpenMP並列プログラムを生成する.本コンパイラが自動的に生成したOpenMP Fortranプログラムでは, プログラム開始時に一度だけスレッドをforkし, 終了時に一度だけスレッドをjoinするだけで, 階層的な粗粒度タスク並列処理及びループ並列化が行えるため, スレッドのfork/joinオーバーヘッド等を最小化できる.本手法の性能は, 新たに開発したOpenMPバックエンドを用いて, 8プロセッサのSMPであるIBM RS6000 SP 604e High Node上で評価した.OSCARマルチグレインコンパイラはSPEC 95fpのSWIM, TomcatV, Hydro2d, Mgrid, Perfect BenchmarksのARC2Dに対してIBM XL Fortran Compiler Version 5.1自動並列化コンパイラより1.5〜3倍の速度向上が得られることが確かめられた.
- 一般社団法人情報処理学会の論文
- 2000-08-03
著者
関連論文
- 並列度・タスク実行時間の偏りを考慮した標準タスクグラフセットSTG Ver3を用いたスケジューリングアルゴリズムの評価(並列/分散アーキテクチャ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 並列度・タスク実行時間の偏りを考慮した標準タスクグラフセットSTG Ver3を用いたスケジューリングアルゴリズムの評価(並列/分散アーキテクチャ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- メディアアプリケーションを用いた並列化コンパイラ協調型ヘテロジニアスマルチコアアーキテクチャのシミュレーション評価(組込みシステムプラットフォーム)
- メディアアプリケーションを用いた並列化コンパイラ協調型ヘテロジニアスマルチコアアーキテクチャのシミュレーション評価(組込みシステムプラットフォーム)
- メディアアプリケーションを用いた並列化コンパイラ協調型ヘテロジニアスマルチコアアーキテクチャのシミュレーション評価(組込みシステムプラットフォーム)
- ユーザ利用状況に応じたアプリ性能制御のためのリソース配分方法(コミュニケーション支援(3),HCGシンポジウム)
- D-6-25 アプリ性能制御のためのリソース配分方法(D-6. コンピュータシステムC(ソフトウェア),一般セッション)
- マルチコア上でのOSCAR APIを用いた低消費電力化手法(組込みシステムプラットフォーム)
- 自動並列化技術を用いたメディア処理オフロード (ディペンダブルコンピューティング)
- 自動並列化技術を用いたメディア処理オフロード (コンピュータシステム)
- 54倍速AACエンコードを実現するヘテロジニアスマルチコアアーキテクチャの検討(マルチコア,プロセッサ,VLSI回路,デバイス技術(高速,低電圧,低消費電力))
- 54倍速AACエンコードを実現するヘテロジニアスマルチコアアーキテクチャの検討(マルチコア,プロセッサ, VLSI回路,デバイス技術(高速,低電圧,低消費電力))
- マルチコアプロセッサ上での粗粒度タスク並列処理におけるデータ転送オーバラップ(通信と同期,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- マルチコアプロセッサ上での粗粒度タスク並列処理におけるデータ転送オーバラップ(通信と同期, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- OSCARチップマルチプロセッサ上でのマルチグレイン並列性評価(ARC-4 : 実行スケジューリング)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
- マルチグレイン並列性向上のための選択的インライン展開手法(並列・分散処理技術)
- マルチグレイン並列性向上のためのインライン展開手法
- OSCARチップマルチプロセッサ上でのマルチグレイン並列処理
- 並列処理階層自動決定手法を用いた粗粒度タスク並列処理
- (2)パネル討論 : アーキテクチャ研究の将来(150回研究会記念特別企画)
- 150回研究会記念特別企画(2)パネル討論 : アーキテクチャ研究の将来
- マルチコアプロセッサにおけるコンパイラ制御低消費電力化手法(プロセッサアーキテクチャ)
- シングルチップマルチプロセッサ上での近細粒度並列処理 (並列処理)
- シングルチップマルチプロセッサ上でのマルチグレイン並列処理
- マルチコアのためのコンパイラにおけるローカルメモリ管理手法(組込みシステムプラットフォーム)
- ヘテロジニアスマルチコア上でのコンパイラによる低消費電力制御(ARC-6 : ソフトウェア最適化,2007年並列/分散/協調処理に関する『旭川』サマー・ワークショップ(SWoPP旭川2007))
- ヘテロジニアスチップマルチプロセッサにおける粗粒度タスクスタティックスケジューリング手法(並列処理手法, SHINING 2006 「アーキテクチャとコンパイラの協調および一般」)
- ホモジニアスマルチコアにおけるコンパイラ制御低消費電力化手法(ARC-4: 低電力アーキテクチャ2, 2005年並列/分散/協調処理に関する『武雄』サマー・ワークショップ(SWoPP武雄2005)-研究会・連続同時開催-)
- ヘテロジニアスマルチコア上での階層的粗粒度タスクスタティックスケジューリング手法(ARC-6 : ソフトウェア最適化,2007年並列/分散/協調処理に関する『旭川』サマー・ワークショップ(SWoPP旭川2007))
- マルチコアプロセッサ上でのマルチメディア処理の並列化(マルチプロセッサ)
- 独立に周波数制御可能な4320MIPS、SMP/AMP対応4プロセッサLSIの開発(集積回路とアーキテクチャの協創-プロセッサ,メモリ,システムLSI及び一般-)
- 情報家電用マルチコアSMP実行モードにおけるマルチグレイン並列処理(集積回路とアーキテクチャの協創-プロセッサ,メモリ,システムLSI及び一般-)
- 独立に周波数制御可能な4320MIPS、SMP/AMP対応4プロセッサLSIの開発(マルチコア,集積回路とアーキテクチャの協創-プロセッサ,メモリ,システムLSI及び一般-)
- 情報家電用マルチコアSMP実行モードにおけるマルチグレイン並列処理(マルチコア,集積回路とアーキテクチャの協創-プロセッサ,メモリ,システムLSI及び一般-)
- マルチコア上でのマルチメディアアプリケーションの自動並列化(マルチコア)
- OSCARコンパイラにおける制約付きCプログラムの自動並列化(並列化コンパイラ)
- ポインタ解析を用いた制約付きCプログラムの自動並列化(並列処理,集積回路とアーキテクチャの協創〜どう繋ぐ?どう使う?マルチコア〜)
- 階層グルーピング対応バリア同期機構の評価(マイクロアーキテクチャ,集積回路とアーキテクチャの協創〜どう繋ぐ?どう使う?マルチコア〜)
- Javaにおける明示的メモリ管理領域の半自動適用技術
- 自動並列化のためのElement-Sensitiveポインタ解析
- Fortran マルチグレイン並列処理におけるデータローカライゼーション手法
- Fortran粗粒度並列処理におけるDoall/シーケンシャルループ間データローカライゼーション手法
- 粗粒度並列処理におけるDoall/シーケンシャルループ間データローカライゼーション手法
- Fortran マクロデータフロー処理におけるデータローカライゼーション手法
- マルチグレイン並列処理におけるタスク融合を用いたデータローカライゼーション手法
- マクロデータフロー処理におけるデータローカライゼーション手法
- 組込み向けマルチコア上での複数アプリケーション動作時の自動並列化されたアプリケーションの処理性能
- 自動並列化技術を用いたメディア処理オフロード
- 自動並列化技術を用いたメディア処理オフロード
- 自動並列化技術を用いたメディア処理オフロード
- 自動並列化技術を用いたメディア処理オフロード
- Javaにおける明示的メモリ管理
- オブジェクトの参照関係に基づいたメモリリーク原因箇所の自動検出手法
- オブジェクトの参照関係に基づいたメモリリーク原因箇所の自動検出手法
- 自動並列化技術を用いたメディア処理オフロード
- 自動並列化技術を用いたメディア処理オフロード
- 共有メモリ型マルチプロセッササーバー上におけるOSCARマルチグレイン自動並列化コンパイラの性能評価
- 配列間パディングを用いた粗粒度タスク並列処理のためのキャッシュ最適化(並列・分散処理技術)
- スタティックスケジューリングを用いたデータローカライゼーションにおける配列間パディング(コンパイラとスレッド技術)
- マルチグレイン並列処理のための階層的並列性制御手法
- ラインコンフリクトミスを考慮した粗粒度タスク間キャッシュ最適化
- SMPシステム上でのOSCARマルチグレイン並列化コンパイラの性能
- SMPマシン上での粗粒度タスク並列処理オーバーヘッドの解析
- 共有メモリマルチプロセッサ上でのキャッシュ最適化を考慮した粗粒度タスク並列処理(並列処理)
- 共有メモリマルチプロセッサ上でのデータローカライゼーション対象マクロタスク決定手法
- 粗粒度並列性抽出のための解析時インライニングとフレキシブルクローニング
- 共有メモリマルチプロセッサ上でのデータローカライゼーション対象マクロタスク決定手法
- 粗粒度並列性抽出のための解析時インライニングとフレキシブルクローニング
- 商用SMP上での粗粒度タスク並列処理
- キャッシュ最適化を考慮したマルチプロセッサシステム上での粗粒度タスクスタティックスケジューリング手法
- 共有メモリマルチプロセッサシステム上での粗粒度タスク並列処理
- 共有メモリマルチプロセッサシステム上での粗粒度タスク並列実現手法の評価
- B-15-6 動的キャッシュ分割を用いたアプリケーション制御(B-15.モバイルマルチメディア通信,一般セッション)
- 電磁界解析のための有限要素・境界要素併用法の並列処理
- OSCARチップマルチプロセッサ上でのデータ転送ユニットを用いたデータローカライゼーション(ARC-7 : キャッシュシステム)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
- 自動並列化技術を用いたメディア処理オフロード
- SMPマシン上での粗粒度タスク並列処理におけるデータプリフェッチ手法(SMPシステム)(デザインガイア2003 : VLSI設計の新しい大地を考える研究会)
- SMPマシン上での粗粒度タスク並外処理におけるデータプリフェッチ手法
- マルチグレイン並列化コンパイラとそのアーキテクチャ支援
- マルチグレイン並列化コンパイラとそのアーキテクチャ支援
- マルチグレイン並列化コンパイラとそのアーキテクチャ支援
- 共有メモリ型マルチプロセッササーバー上におけるOSCARマルチグレイン自動並列化コンパイラの性能評価
- データ依存マクロタスクグラフに対するデータローカライゼーション手法
- マルチグレイン並列化FORTRANコンパイラ
- OSCAR FORTRAN Compilerを用いたマルチグレイン並列性の評価
- 科学技術計算プログラムにおけるマルチグレイン並列性の評価
- 一般的なマクロタスクグラフに対するループ間データローカライゼーション手法
- マルチグレイン並列処理におけるインタープロシージャ解析
- マルチグレイン自動並列化のための解析時インライニング
- マルチグレイン自動並列化のための解析時インライニング
- 共有メモリ型マルチプロセッササーバー上におけるOSCARマルチグレイン自動並列化コンパイラの性能評価(コンパイラ及びツール, SHINING 2005「アーキテクチャとコンパイラの協調および一般」)
- 2D-5 マルチグレイン並列処理におけるサブルーチンを含むデータローカライゼーション手法
- 電磁界解析における有限要素・境界要素併用法の並列処理手法
- 電磁界解析における有限要素・境界要素併用法の並列処理手法
- 2D-4 OSCARマルチグレイン並列化コンパイラにおける階層的並列処理手法
- 低消費電力マルチコアRP2上での複数メディアアプリケーション実行時の消費電力評価
- D-6-8 階層型ヘテロメニコア向けコア割り当て方法(D-6.コンピュータシステムC(ソフトウェア),一般セッション)
- 2000-ARC-139-32 OpenMPを用いた粗粒度並列処理
- マルチグレイン並列化コンパイラのメモリアクセスアナライザ
- メニコアアクセラレータ搭載サーバにおけるマルチタスク環境でのスループット向上手法(FPGA・メニーコア,2012年並列/分散/協調処理に関する『鳥取』サマー・ワークショップ(SWoPP鳥取2012))