HxABCLibScript:非均質計算機向け自動チューニング記述言語拡張

概要

論文の詳細を見る
本稿では,CPUおよびGPU(Graphics Processing Unit)を混載した非均質計算機において,任意のプログラムの一部分が,適する計算資源上で実行される最適化を実現する自動チューニング専用言語HxABCLibScriptを提案する.性能評価の結果,HxABCLibScript記述から自動生成されるコードは,問題サイズや反復回数に応じ,CPUとGPU間で適切に計算資源を切り替えることで最適化されることを確認した.
2011-03-08

著者

片桐孝洋
東京大学情報基盤センター
平澤将一
電気通信大学大学院情報システム学研究科
本多弘樹
電気通信大学大学院情報システム学研究科
大島聡史
東京大学情報基盤センタースーパーコンピューティング研究部門
平澤将一
電気通信大学|独立行政法人科学技術振興機構 Crest
片桐孝洋
東京大学情報基盤センタースーパーコンピューティング研究部門
本多弘樹
電気通信大学大学院情報システム学研究科
片桐孝洋
東京大学情報基盤センタースーパーコンピューティング研究部門
大島聡史
独立行政法人科学技術振興機構 Crest|東京大学
平澤将一
電気通信大学大学院情報システム学研究科
大島総史
東京大学情報基盤センター
大島聡史
東京大学情報基盤センター

関連論文

SC09(学術会合報告)
OMPCUDA : GPU向けOpenMPの実装(高性能計算)
POSIXスレッドを用いたCellプロセッサ向けAPIの提案(マルチプロセッサ)
コードの性能可搬性を提供するSIMD向け共通記述方式(コンパイラ)
F-Omega : サーバ稼動状況に適応するGridRPCアプリケーションの開発・実行フレームワーク(シミュレーション・エミュレーション,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
高性能GridRPCアプリケーションの開発環境(グリッド)
高性能 GridRPC アプリケーションの開発環境
コードの性能可搬性を提供するSIMD向け共通記述方式(ARC-7:性能予測,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
GridRPCアプリケーションポータルの構築・運用を支援するポートレット(並列処理システム)
高性能GridRPCアプリケーションの開発環境(グリッドRPC)
Relis-G : 計算グリッドのための遠隔ライブラリインストール機構(グリッド)
GridRPCシステムにおけるリモートプログラムシッピング機構(グリッド)
「行列・固有値問題の解法とその応用」研究部会活動報告(研究部会だより)
相乗り通信を利用したソフトウェアDSMの通信回数削減手法(ARC-9:メモリ管理,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
ネットワークサービス提供に向けた汎用システムにおけるソフトウェア修正方式(交換)
「数値計算のための自動チューニング」特集号に寄せて (特集数値計算のための自動チューニング)
iPat/OMPでのソースコードレベル最適化における試行錯誤支援ツール(コンパイラ及びツール,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
1.ソフトウェア自動チューニングの枠組み(概論,科学技術計算におけるソフトウェア自動チューニング)
「Cellスピードチャレンジ2008」実施報告(ARC-6:通信およびコンテスト報告,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
ソフトウェア自動チューニングにおける標本点逐次追加型性能パラメータ推定法の疎行列計算への適用(数値計算)
マルチコアプログラミングコンテスト「Cellスピードチャレンジ2007」実施報告(ARC-11 : シミュレータおよびコンテスト報告,2007年並列/分散/協調処理に関する『旭川』サマー・ワークショップ(SWoPP旭川2007))
Alphaアーキテクチャ用COINSマシン記述の実装とGCCとの比較
ソフトウェア自動チューニングにおける標本点逐次追加型性能パラメータ推定法(数値計算,数理計画法)
通信量の密度に着目したS-DSM開発支援ツールS-CATの機能拡張(セッション2)
ソフトウェアDSM MochaとMPIの並列ベンチマークを用いた性能評価(クラスタ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
電力的制約を考慮した低消費電力指向最適化コンパイラ(コンパイラ及びツール,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
量子i.i.d.状態における仮説検定の漸近特性に関する数値的アプローチ
CPUとGPUを用いた並列GEMM演算の提案と実装(数値計算)
MPIとの比較によるソフトウェアDSMの性能評価(ARC-9:メモリ管理,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
Effect on Run-time Auto-tuning for the Multi-section with Multiple Eigenvalues Method
不均質なクラスタ環境を対象とするデータ再配置による動的負荷分散機構の設計と実装(会場A)
Multi-section with Multiple Eigenvalues Method for Computing Eigenvalues in Symmetric Tridiagonal Eigensolvers(並列数値計算,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
Multi-section with Multiple Eigenvalues Method for Computing Eigenvalues in Symmetric Tridiagonal Eigensolvers(並列数値計算, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
S-DSMシステムにおけるページ要求時の受信通知を削減する方式(ソフトウェア分散共有メモリ)
「数値計算のための自動チューニング」特集号に寄せて(数値計算のための自動チューニング)
SIAM CSE09(Conference Reports)
「行列・固有値問題の解法とその応用」研究部会活動報告
超並列マルチコア環境での自動チューニング機能の有効性 : T2Kオープンスパコン上の固有値ソルバを例にして(並列数値計算)
メッセージ通信型GPGPUプログラミング(プログラミング環境,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2008))
非均一分散環境における並列性の仮想化(Inventive and Creative Architecture特別セッションII)
既存の並列化手法を用いたGPGPUプログラミングの提案(Inventive and Creative Architecture特別セッションI)
F-Omega : サーバ稼動状況に適応するGridRPCアプリケーションの開発・実行フレームワーク(シミュレーション・エミュレーション,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
GPUコンピューティング向け中間言語の研究
キャリアグレードOSのためのディスクWrite処理方式
Segmented Scan法のCUDA向け最適化実装
GPU向けソフトウェアキャッシュ機構の実装と評価
GPU向けソフトウェアキャッシュ機構の実装と評価
OpenATLib:数値計算ライブラリ向け自動チューニングインタフェース
ペタフロップス環境における小規模行列用対称密行列固有値ソルバに向けて-逆変換の改良
Xabclib : 汎用的自動チューニングインターフェースOpenATLibを利用した反復解法ライブラリの開発(数値計算のための自動チューニング(続))
GridRPCにおける計算ノードの動的な追加・切替を可能とする枠組
F-Omega:グリッドアプリケーションの自動サーバ切替えの枠組み
メッセージ通信型GPGPUプログラミング(プログラミング環境,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2008))
iPat/OMPでのソースコードレベル最適化における試行錯誤支援ツール(コンパイラ及びツール,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
行列計算ライブラリ向け数値計算ポリシーインターフェースの提案
自動チューニングインターフェースOpenATLibにおける疎行列ベクトル積アルゴリズム
OpenATLibを利用した疎行列ライブラリの開発と評価
OpenATLib:汎用的な自動チューニングインターフェースの設計と実装
ソフトウェアDSM MochaとMPIの並列ベンチマークを用いた性能評価(クラスタ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
電力的制約を考慮した低消費電力指向最適化コンパイラ(コンパイラ及びツール,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
CPUとGPUの並列処理による行列積和演算方式の提案(ARC-8: 応用システム, 2005年並列/分散/協調処理に関する『武雄』サマー・ワークショップ(SWoPP武雄2005)-研究会・連続同時開催-)
3次元津波伝搬シミュレーションにおけるコード最適化一手法
「Cellチャレンジ2009」実施報告
「Cell チャレンジ2009」実施報告
SIAM AN10(Conference Reports)
マルチコアプロセッサにおけるリオーダリング付き非構造格子向け前処理付反復法の性能
Windowsクラスタにおける疎行列反復解法ソルバの自動チューニング(HPC-3:自動チューニングI,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
GridRPC における計算ノードの動的な追加・切替を可能とする枠組
GPU向けソフトウェアキャッシュ機構の実装と評価
GPU向けソフトウェアキャッシュ機構の実装と評価
自動チューニングインターフェース OpenATLib における疎行列ベクトル積アルゴリズム
2008年度年会「若手研究者による学会への期待」報告
Supercomputing 08(Conference Reports)
編集にあたって(科学技術計算におけるソフトウェア自動チューニング)
4.ソフトウェア自動チューニング記述のための計算機言語(ソフトウェア自動チューニングを支える基盤,科学技術計算におけるソフトウェア自動チューニング)
T2Kオープンスーパーコンピュータと共用イノベーション
疎行列反復解法ライブラリにおける自動チューニング機能の開発 (科学技術計算アルゴリズムの数理的基盤と展開)
自動チューニング処理記述言語ABCLibScript の組み込みシステムへの適用の一検討(HPC-12 : 自動チューニングII)
三次元有限要素法アプリケーションにおける行列生成処理のCUDA向け実装
機械学習により抽出されたアプリケーションの特徴を利用したタスク配置の検討
ヘテロジニアス計算機クラスタにおける省エネルギー化タスクスケジューリング手法
疎行列-ベクトル積における実行時データ変換のための自動チューニング方式
三次元有限要素法アプリケーションのCUDA向け実装と性能評価
自動チューニングインターフェースOpenATLibにおける自動チューニング機能の評価
HxABCLibScript:非均質計算機向け自動チューニング記述言語拡張
走行時パワーゲーティングにおけるスラック解析を用いた動的命令スケジューリングの検討
高精度行列-行列積アルゴリズムのスレッド並列化とABCLibScriptへの機能実装
マルチコア・プロセッサ向けのヘルパースレッドによるキャッシュ制御支援手法の検討
大規模SMP並列スーパーコンピューター(HITACHI SR16000モデルM1)の性能評価
複数GPU向けのCUDAコードを生成するOpenMP処理系の提案
日本応用数理学会若手の会(研究部会だより)
SC10参加報告
SIAM CSE 11(学術会合報告)
$ppOpen-AT$ : ポストペタスケール時代の数値シミュレーション基盤ソフトウェア$ppOpen-HPC$ のための自動チューニング基盤 (科学技術計算における理論と応用の新展開)
収束障害(Fault Convergence):数値計算ソフトウェアにおける新しい安全性の概念
量子i.i.d.状態の仮説検定に関する数値的手法とその誤差分析 (コンピューティングシステム Vol.4 No.4)
レイテンシコアの高度化・高効率化による将来のHPCIシステムに関する調査研究のためのアプリケーションと性能評価
レイテンシコアの高度化・高効率化による将来のHPCIシステムに関する調査研究のためのアプリケーションと性能評価
BiCGStab法の前処理付きアルゴリズムに対する改善 (コンピューティングシステム Vol.5 No.3)
チューニング対象の限定による効率の良い性能可搬性向上手法

HxABCLibScript:非均質計算機向け自動チューニング記述言語拡張

スポンサーリンク

概要

著者

関連論文

スポンサーリンク