複雑な制御構造を持つプログラムのSIMD命令セットによる最適化
スポンサーリンク
概要
- 論文の詳細を見る
近年の汎用プロセッサの多くは,複数のパックされたデータを1命令で演算可能なSIMD(Single Instruction Multiple Data)命令セットを搭載している.この命令セットはデータの並列性を利用して,大量のデータを通常の命令よりも高速に処理することが可能である.そのため,マルチメディア処理や数値計算処理の高速化に利用されている.これまで,自動解析によってSIMD命令セットを使ったプログラムの並列化を実現するための研究が多くなされており,コンパイラによるSIMD並列化も行われるようになりつつある.ところで,SIMD命令はパックされたデータ1つ1つに対して,異なる演算を実行するということができない.そのため,条件分岐やループのような複雑な制御構造は,あまり最適化対象として扱われなかった.しかし,そのような制御構造がSIMD並列化の適用範囲となれば,より多くのプログラムが最適化可能となることが期待できる.そこで本論文では,複雑な制御構造を持つプログラムをSIMD並列化するための手法を提案する.本論文の提案手法をCOINSコンパイラインフラストラクチャに実装し,テストプログラムをPowerPCのSIMD命令セット向けにSIMD並列化して速度を比較したところ,本来のプログラムの1.19倍から12.3倍の速度で動作した.
- 一般社団法人情報処理学会の論文
- 2007-03-15
著者
関連論文
- SR11000/J2における4倍精度演算を改良したFFTの実装と評価(HPC-4:性能評価,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- 複数多項式によるMBPSの改善とHITACHI SR11000/J2での実装評価(並列計算,SWoPP佐賀2008-2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ)
- SR11000モデルJ2における4倍精度積和演算の高速化(数値計算)
- 発見科学の構想と展開(発見科学)
- 6.自動チューニング機能付き数値計算ライブラリ(ソフトウェア自動チューニング技術の応用,科学技術計算におけるソフトウェア自動チューニング)
- マルチコア環境における自動チューニング機能付き疎行列反復解法ライブラリ
- ブロック幅を動的決定する疎行列連立一次方程式の直接解法
- 自動チューニング機構が並列数値計算ライブラリに及ぼす効果
- 積和演算命令に向いた8基底FFTカーネルの提案
- 級数に基づく多数桁計算の演算量削減を実現する分割有理数化法
- 積和演算に向いた8基底FFT Kernelの提案
- 無限級数に基づく多数桁計算の演算量削減を実現する分割有理数化法 (数値計算における前処理の研究)
- 分散メモリ型並列計算機による円周率の515億桁計算
- 分散メモリ型並列計算機による2, 3, 5基底一次元FFTの実現と評価
- 多数桁の円周率を計算するための公式の改良 : ガウスールジャンドルの公式とボールウェインの4次の収束の公式
- 分散メモリ型並列計算機による円周率の高精度計算
- 並列計算機における二次記憶を用いた一次元FFTの実現と評価
- 分散メモリ型並列計算機による多倍長平方根の高速計算法
- Segmented Scan法のCUDA向け最適化実装
- OpenATLib:数値計算ライブラリ向け自動チューニングインタフェース
- Xabclib : 汎用的自動チューニングインターフェースOpenATLibを利用した反復解法ライブラリの開発(数値計算のための自動チューニング(続))
- 行列計算ライブラリ向け数値計算ポリシーインターフェースの提案
- 自動チューニングインターフェースOpenATLibにおける疎行列ベクトル積アルゴリズム
- OpenATLibを利用した疎行列ライブラリの開発と評価
- OpenATLib:汎用的な自動チューニングインターフェースの設計と実装
- Segmented Scan 法のCUDA向け最適化実装
- 28aTK-5 相対論的流体における非平衡現象について(28aTK 波動,輸送・拡散,領域11(統計力学,物性基礎論,応用数学,力学,流体物理))
- 20aSG-1 一般相対論的気体論コードの作成に向けて(20aSG 宇宙物理,宇宙線・宇宙物理領域)
- MPIを用いた超高次元分布関数による流体のメゾスケール解析(HPC-9 : 数値計算アルゴリズム(2))(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
- 拡張ヒュッケル法による分子構造最適化並列処理-分子構造の簡易高速生成の試み-
- ブロック幅を動的決定する疎行列連立一次方程式の直接解法
- 超並列処理に向く効果的な並列固有値計算法(並列処理)
- CGSS : ソートを用いた新しいGram-Schmidt直交化法
- 分散メモリ型並列計算機に向くHessenberg形への変換アルゴリズムとその有効性
- 分散メモリ型並列計算機によるブロック化Householder法の性能評価
- 並列固有値ソルバーの実現とその性能
- 分散メモリ型並列計算機による固有値計算のためのブロック化Householder法の性能評価
- Windowsクラスタにおける疎行列反復解法ソルバの自動チューニング(HPC-3:自動チューニングI,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- 複雑な制御構造を持つプログラムのSIMD命令セットによる最適化
- π(χ)の計算におけるパラメータの選択に関する考察(Session 1:素数計算)
- 計算精度を考慮したGMRES法
- 並列疎行列ベクトル積における最適なアルゴリズム選択の効果
- 並列疎行列ベクトル積における最適なアルゴリズム選択の効果
- PCクラスタにおける並列数値計算ライブラリILIBの性能評価
- メモリ使用量の少ない一般化共役残差法の提案
- メモリ使用量の少ない一般化共役残差法の提案
- 2000-HPC-82-29 データの分布に着目した並列ソーティングアルゴリズムの性能評価
- 2000-HPC-82-7 異機種並列計算機における連立一次方程式ライブラリの性能評価
- 2000-HPC-82-5 ILIB_RLU : 疎行列を密行列として扱う自動チューニング機能付きLU分解ルーチンの性能評価
- 自動チューニングインターフェース OpenATLib における疎行列ベクトル積アルゴリズム
- とびらの言葉
- 名誉会員 後藤英一博士を偲ぶ
- スーパーコンピュータの今後の動向
- 2000-NL-137-1 近代日本小説家8人による文章のn-gram分布を用いた著者判別
- n-gram分布を用いた近代日本語小説文の著者推定
- 30p-PSA-68 第一原理計算による水素結合性液体の研究
- 28a-PS-138 実空間における大規模電子状態計算法
- ロジスティック写像による擬似乱数発生法
- フォッカー・プランク方程式の解の構造について(分子スケール(3),一般講演)
- 2原子分子解離の気体論的定式化とその数値的検証(空気力学・高エンタルピー流(2),一般講演)
- 相対論的非平衡希薄気体の解析(宇宙流体(3),一般講演)
- 自動チューニングインターフェースOpenATLibにおける自動チューニング機能の評価
- 補間を用いたFFTの実装と評価
- 自動チューニング機能付き並列数値計算ライブラリ構築の試み : 対称疎行列用の連立一次方程式ソルバを列にして
- 自動チューニング機能付き並列疎行列連立一次方程式ソルバの性能
- AND/OR木探索における証明数・反証数を用いた新しい探索法の提案とその評価
- 一般化した二重指数分割に基づく数値表現法
- 収束障害(Fault Convergence):数値計算ソフトウェアにおける新しい安全性の概念