GCCのvectorizerを利用した演算器アレイ向け命令変換手法(並列処理,集積回路とアーキテクチャの協創〜新しいアプリケーション創造に向けたアーキテクチャ、回路技術の貢献〜)
スポンサーリンク
概要
- 論文の詳細を見る
多数の演算ユニットを備えるGPGPUては, CUDA等明示的な並列処理の記述が必要なプログラミング言語を採用することにより,ハードウェアの差異を隠蔽することと,処理の高速化を両立している たたし,所望の性能を引き出すためには,ハートウェア構造の理解と,相当のチューニングコストが必要てある 一方,我々は,演算速度向上と消費電力低減の両立を目的として,演算器とローカルメモリの組を多数配置する構成の演算器アレイ型アクセラレータ(LAPP)を提案してきた しかし,従来のLAPP[2]には,既存のVLIW命令列にプリフェッチ情報を挿入するたけで,イタレーション間に依存関係のないループを高速実行できる利点がある代わりに,適用可能なループに制約がある また,命令セットが異なる基本プロセッサに適用するためには,アクセラレータ部分を新たに設計する必要がある 本稿では, LAPPの実行方式を踏襲しつつ従来の制約を緩和する新たなアクセラレータ構成方式,および, GCCのvectorizerを利用する命令生成方式について述べる現在, Uncprop情報に基づき,コントロールフロー解析,データフロー解析,および,メモリアクセスパターン解析を行い,簡単な構造のループに対して,アクセラレータ用命令列を生成できる段階にある 簡単なプログラムに対して適用したところ, LAPPに比べて,平均65%の命令行数を削減できることかわかったまた, 32行構成を仮定した場合,行数の削減により生じた空き演算器を使用すると, LAPPに比へて, 2倍から8倍の性能向上を期待できることがわかった
- 2013-01-24
著者
関連論文
- 量子計算の並列シミュレーションにおける通信量削減手法(計算論,計算モデル)
- インタラクティブ・スーパーコンピューティング環境の実現に向けて
- パス情報を用いた分岐フィルタ機構(プロセッサアーキテクチャ)
- スラック予測を用いたクラスタ型スーパースカラ・プロセッサ向け命令ステアリング(ARC-4:スケジューリング,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
- セル投影型並列ボリュームレンダリングのEarly Ray Terminationによる高速化(並列計算)
- 中規模コモディティクラスタ向け相互結合網Three Quadsの提案(ネットワーク,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- 中規模コモディティクラスタ向け相互結合網Three Quadsの提案(ネットワーク, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- DVIによる超高速単方向リンクを用いた並列ボリュームレンダリング(FPGAとその応用及び一般)
- DVIによる超高速単方向リンクを用いた並列ボリュームレンダリング
- FPGAのスイッチマトリクスを対象としたソフトエラー対策(チップ間通信,ルーティング,インターコネクト,デザインガイア2008-VLSI設計の新しい大地)