SMP上における再帰BLASライブラリの自動チューニング方式(HPC-9 : 数値計算アルゴリズム(2))(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
スポンサーリンク
概要
- 論文の詳細を見る
数値計算ライブラリを高速に実行するには,キャッシュの大きさやプロセッサ台数などのパラメタ設定をする必要がある.そこで,使用する計算機環境に応じてこれらの設定を自動的に行う自動チューニングソフトウェアが開発されてきた.現在利用されている自動チューニングソフトウェアとしてATLAS(Automatically Tuned Linear Algebra Software)が知られている.本研究では,SMP型の並列計算機に向くようにATLASを用いてBLASを再帰実装し,かつPosix thread を用いて実装することにより高速化を狙う.我々は,この方式をAutoTuned-RBと呼んでいる.AutoTuned-RBでは,再帰段数に関するパラメタチューニングを実行することで自動チューニングを行っている.性能評価の結果,提案手法はSGIOrigin(CPU16台)において,ピーク性能に対し約90%の効率,およびATLASの実測性能に対し最大で3.3倍の効率を実現できることを確認した.
- 一般社団法人情報処理学会の論文
- 2004-07-30
著者
関連論文
- Relis-G : 計算グリッドのための遠隔ライブラリインストール機構(グリッド)
- GridRPCシステムにおけるリモートプログラムシッピング機構(グリッド)
- GridRPCシステムにおけるリモートプログラムシッピング機構
- 相乗り通信を利用したソフトウェアDSMの通信回数削減手法(ARC-9:メモリ管理,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
- SMPクラスタ上でのMPIとOpenMPを用いたマクロデータフロー処理(HPC-3 : クラスタソフトウェア)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
- 1.ソフトウェア自動チューニングの枠組み(概論,科学技術計算におけるソフトウェア自動チューニング)
- ソフトウェア自動チューニングにおける標本点逐次追加型性能パラメータ推定法の疎行列計算への適用(数値計算)
- Alphaアーキテクチャ用COINSマシン記述の実装とGCCとの比較
- ソフトウェア自動チューニングにおける標本点逐次追加型性能パラメータ推定法(数値計算,数理計画法)
- 通信量の密度に着目したS-DSM開発支援ツールS-CATの機能拡張(セッション2)
- ソフトウェアDSM MochaとMPIの並列ベンチマークを用いた性能評価(クラスタ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- 電力的制約を考慮した低消費電力指向最適化コンパイラ(コンパイラ及びツール,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- 量子i.i.d.状態における仮説検定の漸近特性に関する数値的アプローチ
- CPUとGPUを用いた並列GEMM演算の提案と実装(数値計算)
- MPIとの比較によるソフトウェアDSMの性能評価(ARC-9:メモリ管理,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
- 不均質なクラスタ環境を対象とするデータ再配置による動的負荷分散機構の設計と実装(会場A)
- S-DSMシステムにおけるページ要求時の受信通知を削減する方式(ソフトウェア分散共有メモリ)
- タイムワープ法並列離散事象シミュレーションにおけるロールバックの雪崩現象
- 並列離散事象シミュレーションにおける適応的同期プロトコルの評価
- 並列離散事象シミュレーション実行過程のアニメーション表示
- 並列離散事象シミュレーションのための適応的タイムアウト方式の評価
- 種々の並列・分散アプリケーションに対して容易に統合可能な動的ロードバランサpDLBの提案と実装
- 並行オブジェクト指向プログラミングにおける効率的な再帰メソッド呼出し機構の提案
- 分散インプリサイス計算における負荷の状態近似に基づく適応的なタスク移送方式
- 並行オブジェクト指向言語における再帰にともなうデッドロックの回避機構の設計と実装
- 並列オブジェクト指向言語における再帰にともなうデッドロックの回避機構の設計と実装
- 並行オブジェクト指向言語における再帰にともなうデッドロックの回避機構の設計と実装(並列・分散)
- 分散インプリサイス計算のための双主導スケジューリング方式の提案
- 並行オブジェクト指向言語における再帰にともなうデッドロックの回避機構
- 名誉会員 西野博二博士を偲ぶ
- マルチクラスタ向けソフトウェア分散共有メモリの提案
- ホームベースソフトウェア分散共有メモリ上でMigratory Accessを効率良く処理する権限委譲プロトコル(ソフトウェア分散共有メモリとその応用)
- プログラマの意図により複数のキャッシュコヒーレンスプロトコルの利用を可能とするソフトウェア分散共有メモリ
- 細粒度通信機構を持つ並列計算機EM-Xにおける共有メモリプログラムの効率的実行
- 2000-ARC-139-15 EM-XとMD Oneを統合化した粒子シミュレーション用並列計算機プロトタイプの構築
- 並列計算機EM-Xの細粒度通信機構を用いた共有メモリベンチマークの実行
- 並列計算機EM-Xの細粒度通信機構を用いた共有メモリベンチマークの実行
- 並列計算機用要素プロセッサの細粒度同期機構におけるキャッシュ方式の検討
- ウェーブフロント型並列処理における分散メモリ型並列計算機の通信機構の評価 (並列処理)
- 細粒度並列計算機EM-Xにおけるキャシュメモリアーキテクチャ
- E. F. Codd : A Relational Model of Data for Large Shared Data Banks (20世紀の名著名論)
- 学会誌編集長からの手紙
- ソフトウェアDSM MochaとMPIの並列ベンチマークを用いた性能評価(クラスタ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- 電力的制約を考慮した低消費電力指向最適化コンパイラ(コンパイラ及びツール,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- COINSにおける並列化(21世紀のコンパイラ道しるべ・・COINSをベースにして)
- ソフトウェアDSM開発支援ツールを利用したアプリケーションの高速化(分散共有メモリと通信ライブラリ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- ソフトウェアDSM開発支援ツールを利用したアプリケーションの高速化(分散共有メモリと通信ライブラリ, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- Alphaアーキテクチャ用COINSマシン記述の実装とGCCとの比較(コンパイラ技術, SHINING 2006 「アーキテクチャとコンパイラの協調および一般」)
- CPUとGPUの並列処理による行列積和演算方式の提案(ARC-8: 応用システム, 2005年並列/分散/協調処理に関する『武雄』サマー・ワークショップ(SWoPP武雄2005)-研究会・連続同時開催-)
- Bimode-Plus分岐予測器の提案(プロセッサアーキテクチャ)
- 対話型OpenMPプログラム作成支援ツールの開発(ARC-9:ハイパフォーマンスコンピューティング)(2003年並列/分散/協調処理に関する『松江』サマー・ワークショップ(SWoPP松江2003))
- ユーザ知識を活用するソフトウエア自動チューニングについて(EVA-2 : 性能改善)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
- IPネットワークにおける待時式帯域予約通信方式の評価 (インターネットの新しいサービスとその基盤技術, 及び一般)
- 帯域予約開始までの待ち時間を考慮したRSVPの提案(インターネットアーキテクチャ技術論文特集)
- RAO-SS : Autopilotを用いた疎行列ソルバにおける実行時自動チューニング機構(数値計算アルゴリズム(1), 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2005))
- RAO-SS : Autopilot を用いた疎行列ソルバにおける実行時自動チューニング機構
- D-3-9 Autopilotを用いた疎行列ソルバにおける実行時自動チューニング機構の設計(D-3. ソフトウェアサイエンス)
- 階層並列構造と演算チェインニング機構を持つ : 粒子シミュレーション用並列計算機の提案
- タイムワープ法並列離散事象シミュレーションにおけるロールバックの雪崩現象
- タイムワープ法並列離散事象シミュレーションにおけるロールバックの雪崩現象
- 並列離散事象シミュレーションにおける適応的同期プロトコルの評価
- 並列プログラムの処理粒度調整による高速化
- 最適スループットを得るためのATMワークステーションクラスタ用データ転送モデルとその評価
- SimCore/Alpha Functional Simulatorの設計と実装(VLSI設計支援システム, システム開発論文)
- 並列プログラムの性能デバッギングを支援するアニメーション化ツール : かのこ
- Doacrossループのsandglass型並列化方法とその評価 (並列処理)
- データの分割配置を考慮したsandglass型並列化手法の有効性について
- データの分割配置を考慮したsandglass型並列化手法の有効性について
- データの分割配置を考慮したsandglass型並列化手法の有効性について
- 細粒度並列アーキテクチャ用SISALコンパイラにおける並列粒度調整方式(並列処理)
- Doacrossループのsandglass型並列化手法の有効性について
- Doacrossループにおける並列粒度調整方法の検討
- 並列粒度調整機能を組み込んだSISALコンパイラの設計と実装
- SISALコンパイラへの並列粒度調整機能の組み込み
- 画像処理用ベンチマークによる分散記憶型並列計算機の評価
- 分散メモリシステム上でのマクロデータフロー処理のためのデータ到達条件
- 分散メモリシステム上でのマクロデータフロー処理の実現
- D-6-6 分散メモリシステム上での粗粒度並列処理のためのデータ到達条件
- 分散メモリシステム上でのマクロデータフロー処理の実現
- データ駆動型並列計算機研究の展望
- S-DSMシステムの受信通知オーバヘッドを削減する方式(システムII)(リコンフィギャラブルシステムにおける設計技術及び一般)(デザインガイア2004-VLSI設計の新しい大地を考える研究会-)
- 極端な偏りを利用するBimode++分岐予測器の提案(分岐予測アーキテクチャ及びスケジューリング, SHINING 2005「アーキテクチャとコンパイラの協調および一般」)
- 複数のS-DSMを対象とする開発支援ツールS-CATの設計と実装(コンパイラ及びツール, SHINING 2005「アーキテクチャとコンパイラの協調および一般」)
- PCクラスタを用いたN-queens問題の求解
- O-011 qn24b: N-queensの解を計算するベンチマークプログラム(O.情報システム)
- ページのプリフェッチングにおける動的調整機構
- ページのプリフェッチングにおける動的調整機構
- ページのプリフェッチングにおける動的調整機構(並列・分散)
- ぺージ操作に対するシステムとアプリケーション間の協調動作支援機構
- データ再分散を行う並列Gram-Schmidt再直交化(数値計算)
- Peer-to-Peerシステムにおける共有ファイルの最適配置手法の提案
- SMP上における再帰BLASライブラリの自動チューニング方式(HPC-9 : 数値計算アルゴリズム(2))(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
- D-3-10 SMPマシン上でのBLASライブラリ用自動チューニング機構の設計と実装(D-3. ソフトウェアサイエンス)
- 粗粒度並列化コンパイラCoCoの開発(並列処理のためのシステム)
- RAO-SS : Autopilotを用いた疎行列ソルバにおける実行時自動チューニング機構(数値計算アルゴリズム(1), 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2005))
- ログ情報に基づくGrid上でのMPIアプリケーションにおけるタスク割り当て手法の提案とその評価
- SimCore/Alpha Functional Simulatorの設計と評価(プロセッサアーキテクチャ)
- Bimode-Plus分岐予測器の提案(2003年並列/分散/協調処理に関する「松江」サマーワークショップ(SWoPP松江2003))(CPSY-3予想とスケジューリング)
- FIBER : 汎用的な自動チューニング機能の付加を支援するソフトウエア構成方式(プロセッサシステムとプログラミング環境)
- 制御フローコードを分離するプロセッサアーキテクチャの提案