レジスタスロットを考慮したSIMD向け細粒度自動並列化コンパイラ
スポンサーリンク
概要
- 論文の詳細を見る
SIMD演算は,高いデータ並列性を持つ計算処理に対して有効であるが,それらを有効に利用するプログラムが必要となる.そのため,アセンブリ言語や特殊な関数を呼び出すように変更することが要求される.しかし,明らかなデータ並列性のあるプログラムを変更することは容易であるが,内在しているデータ並列性を活用するためには,注意深くプログラムを解析するか,あるいは,実装するアルゴリズムそのものを再設計する必要がある.これは,大変困難で,また時間のかかる作業であるため,コンパイラによって自動化されることが望まれている.本論文では,SIMD演算を手軽かつ効果的に活用するために,プログラム中に内在する並列性に着目した自動並列化手法を提案する.提案手法では,データを揃えるために必要となるShuffle命令を削減することで,少ないオーバヘッドで高い並列演算性能を引き出す.提案手法をCell B.E.のSPUを対象とする自動並列化に適用し,トイプログラムに対しては期待どおりの並列度を,またDSPStoneのプログラムに対しては,提案手法を適用しなかった場合と比べて1.565倍,gccおよびXL-Cでコンパイルした場合と比べ,最大1.529倍,1.715倍の実行速度の向上を実現した.
- 2008-08-21
著者
-
三好 健文
東京工業大学総合理工学研究科物理情報システム専攻:日本学術振興会
-
三好 健文
東京大学大学院情報理工学系研究科創造情報学専攻
-
杉野 暢彦
東京工業大学大学院総合理工学研究科物理情報システム専攻
-
杉野 暢彦
東京工業大学大学院物理情報システム専攻
関連論文
- メニーコアプロセッサのためのネットワークトラフィックに着目したタスク配置問題の解析と考察(ネットワーク,クラウド及び一般)
- 小容量FPGAによるスケーラブルなシステム評価環境の構築手法(応用2)
- FPGA基板を用いたモンテカルロ碁の高速化(アクセラレーションと回路設計,2009年並列/分散/協調処理に関する『仙台』サマー・ワークショップ(SWoPP仙台2009))
- カウンタ,合計値計算モジュール,7セグメントLEDの点灯制御,乱数生成器,シリアル通信モジュール VHDL/Verilog HDLの基本プログラム集 (特集 オリジナル・ハードウェアが作れる夢のデバイスFPGA ソフトウェア技術者のためのFPGA入門)
- シンプルで効率的なメニーコアアーキテクチャの開発(コンパイラ技術およびメニーコアアーキテクチャ)
- Smart Coreシステムによるメニーコアプロセッサの信頼性向上手法 (集積回路)
- ヘテロジニアスマルチプロセッサのためのタスク分散手法(ARC-2:マルチコア1,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- Feature-Packingのためのソフトウェアによるメモリ管理手法の実装と評価 (集積回路)
- Feature-Packingのためのソフトウェアによるメモリ管理手法の検討(Inventive and Creative Architecture特別セッションII)
- メニーコアプロセッサ時代を拓くシステムソフトウェアへの挑戦(セッション4:マルチコア向けシステムソフトウェア)
- コンパイラとランタイムによるソフトウェアキャッシュの更新オーバヘッド隠蔽手法
- CoreSymphonyアーキテクチャのための物理レジスタ管理手法
- バイパスアーキテクチャ向けコード最適化における演算命令のクラスタリングを利用した改良手法に関する研究
- Ruby用仮想マシンにおけるAOTコンパイラ
- SmartCoreシステムによるメニーコアプロセッサの信頼性向上手法
- SmartCoreシステムによるメニーコアプロセッサの信頼性向上手法
- ±2^n自動更新可能な間接アドレッシングに有効なアドレス決定法(移動体衛星通信/適応信号処理/一般)(フィルタ設計,信号処理実現)
- ±2^n自動更新可能な間接アドレッシングに有効なアドレス決定法
- ±2^n自動更新可能な関節アドレッシングに有効なアドレス決定法
- 最適内挿近似理論を用いた2次元非分離型フィルタバンクの設計
- スケーラブルFPGAシステムにおけるハードウェア拡張方式(高速化技術,FPGA応用及び一般)
- スケーラブルFPGAシステムにおけるハードウェア拡張方式(高速化技術,FPGA応用及び一般)
- スケーラブルFPGAシステムにおけるハードウェア拡張方式(高速化技術,FPGA応用及び一般)
- 2M-5 マルチコアシステムにおけるルータの実装と評価(ネットワークアーキテクチャ,学生セッション,アーキテクチャ,情報処理学会創立50周年記念)
- Feature-Packingのためのソフトウェアによるメモリ管理手法の実装と評価
- Feature-Packingのためのソフトウェアによるメモリ管理手法の実装と評価
- メニーコアアーキテクチャ研究のためのスケーラブルなHW評価環境ScalableCoreシステム
- メニーコア向けタスクスケジューリングシステムの検討
- CoreSymphonyアーキテクチャの高効率化
- 演算命令のクラスタリングに基づくバイパスアーキテクチャ向けコード最適化手法の改良(一般,ネットワーク,通信のための信号処理及び一般)
- 演算命令のクラスタリングに基づくバイパスアーキテクチャ向けコード最適化手法の改良(一般,ネットワーク,通信のための信号処理及び一般)
- 演算命令のクラスタリングに基づくバイパスアーキテクチャ向けコード最適化手法の改良(一般,ネットワーク,通信のための信号処理及び一般)
- データフローグラフの評価に基づくバイパスアーキテクチャ向けのコード最適化手法(デモ展示・ポスター講演,ネットワークプロセッサ,通信のための信号処理,無線LAN/PAN,一般)
- データフローグラフの評価に基づくバイパスアーキテクチャ向けのコード最適化手法(デモ展示・ポスター講演,ネットワークプロセッサ,通信のための信号処理,無線LAN/PAN,一般)
- データフローグラフの評価に基づくバイパスアーキテクチャ向けのコード最適化手法(デモ展示・ポスター講演,ネットワークプロセッサ,通信のための信号処理,無線LAN/PAN,一般)
- A-3-3 バス接続バイパス構造を用いたマルチプロセッサのためのコードスケジューリング最適化手法についての検討(A-3.VLSI設計技術,一般講演)
- A-3-2 バイパス構造をバス接続したマルチプロセッサによる消費電力削減の検討(A-3.VLSI設計技術,一般講演)
- 3M-4 メニーコアプロセッサにおける効率的なキャッシュシステム(プロセッサアーキテクチャ,学生セッション,アーキテクチャ,情報処理学会創立50周年記念)
- メモリアドレッシングの最適化とDSPコード自動生成
- 4M-7 メニーコアプロセッサ向けプロトタイピングシステムの高速化(チップマルチプロセッサ,学生セッション,アーキテクチャ,情報処理学会創立50周年記念)
- 4M-6 メニーコアプロセッサにおける柔軟なタスク配置を実現する論理コア変換機構(チップマルチプロセッサ,学生セッション,アーキテクチャ,情報処理学会創立50周年記念)
- 4M-3 メニーコアプロセッサの性能向上を目指すタスク配置手法(チップマルチプロセッサ,学生セッション,アーキテクチャ,情報処理学会創立50周年記念)
- 4M-2 洗練されたメニーコアアーキテクチャの開発(チップマルチプロセッサ,学生セッション,アーキテクチャ,情報処理学会創立50周年記念)
- 3M-6 CMPの逐次性能向上を目指すCoreSymphonyアーキテクチャ(プロセッサアーキテクチャ,学生セッション,アーキテクチャ,情報処理学会創立50周年記念)
- 3M-3 コア融合アーキテクチャのためのプログラムの振舞いに着目した融合コア数の制御(プロセッサアーキテクチャ,学生セッション,アーキテクチャ,情報処理学会創立50周年記念)
- 1A-6 メニーコアプロセッサにおけるSmartCoreシステムを用いたReactive NUCAの実装の検討(計算機アーキテクチャ,一般セッション,アーキテクチャ,情報処理学会創立50周年記念)
- MICS:システム設計のためのフレキシビリティの高いシミュレーション環境
- レジスタスロットを考慮したSIMD向け細粒度自動並列化コンパイラ
- 細粒度自動並列化に基づくマルチプロセッサ向けの移植性の高いバックエンドの構成
- レジスタ内Shuffleを考慮したSuperword Level Parallelismを活用したSIMDプロセッサのための自動並列化 (第21回 回路とシステム軽井沢ワークショップ論文集) -- (実現技術)
- A-3-4 MICSを用いたシステムアーキテクチャ設計手法の検討と評価(A-3.VLSI設計技術,一般講演)
- A-3-1 低消費電力のための細粒度並列化におけるデータ転送回数の削減(A-3.VLSI設計技術,一般講演)
- A-3-16 柔軟なシステム設計のためのシミュレーション環境MICSの動作速度の評価(A-3.VLSI設計技術,一般講演)
- システム設計のためのフレキシビリティの高いシミュレーション環境を用いた信号処理アルゴリズムの実装支援 (第20回 回路とシステム軽井沢ワークショップ論文集) -- (システム設計手法)
- A-3-4 動的再構成可能プロセッサのためのコンテクスト自動抽出とプログラムの等価変換による改善の検討(A-3.VLSI設計技術,一般講演)
- A-3-2 確率モデルにもとづく細粒度自動並列化コンパイラの検討(A-3.VLSI設計技術,一般講演)
- 三次元表現空間を用いたプログラムの解析と並列化の一手法
- A-3-2 可変論理プロセッサへの演算器のマッピング問題について(A-3.VLSI設計技術,基礎・境界)
- データドリブンに基づくバス解析の一手法
- 間接アドレッシングDSPのための複数同時データ転送を考慮したメモリ配置手法
- 動的可変パイプライン方式の提案とプロセッサの低消費電力化への応用(ポスターセッション,ネットワーク,通信のための信号処理及び一般)
- 動的可変パイプライン方式の提案とプロセッサの低消費電力化への応用(ポスターセッション,ネットワーク,通信のための信号処理及び一般)
- 動的可変パイプライン方式の提案とプロセッサの低消費電力化への応用(ポスターセッション,ネットワーク,通信のための信号処理及び一般)
- 計算順序とメモリアクセスを同時に考慮したDSPコード効率化
- パイプライン化DSPの条件分岐命令に伴う最悪実行時間を短縮するコード最適化手法
- 複数のアドレスレジスタを有するDSPのためのメモリアクセス手法(ディジタル信号処理,スペクトル拡散及び一般)
- 複数のアドレスレジスタを有するDSPのためのメモリアクセス手法(ディジタル信号処理,スペクトル拡散及び一般)
- 異種コード最適化方法を統合するためのコンパイラ構成に関する一考察 (第20回 回路とシステム軽井沢ワークショップ論文集) -- (インタラクティブセッション)
- A-3-3 マルチプロセッサ用の信号処理アルゴリズム向け最適化コンパイラの研究(A-3.VLSI設計技術,一般講演)
- コンパイラにおける複数のコード最適化方法の統合に関する一考察(ネットワークプロセッサ,通信のための信号処理,符号理論,一般)
- コンパイラにおける複数のコード最適化方法の統合に関する一考察(ネットワークプロセッサ,通信のための信号処理,符号理論,一般)
- コンパイラにおける複数のコード最適化方法の統合に関する一考察(ネットワークプロセッサ,通信のための信号処理,符号理論,一般)
- コンパイラによる複数最適化方法の統合に関する一考察(ハードウェア/ソフトウェア設計技術, 信号処理, LSI, 及び一般)
- コンパイラによる複数最適化方法の統合に関する一考察(ハードウェア/ソフトウェア設計技術, 信号処理, LSI, 及び一般)
- コンパイラによる複数最適化方法の統合に関する一考察(ハードウェア/ソフトウェア設計技術, 信号処理, LSI, 及び一般)
- ディジタルロックインアンプの実現に関する一考察
- データ転送の定量的評価に基づく多階層化キャッシュアーキテクチャ向け帰納的コード自動並列化手法(ポスターセッション,ネットワーク,通信のための信号処理及び一般)
- データ転送の定量的評価に基づく多階層化キャツシュアーキテクチャ向け帰納的コード自動並列化手法(ポスターセッション,ネットワーク,通信のための信号処理及び一般)
- データ転送の定量的評価に基づく多階層化キャッシュアーキテクチャ向け帰納的コード自動並列化手法(ポスターセッション,ネットワーク,通信のための信号処理及び一般)
- マルチターゲットDSPコンパイラ
- 演算命令のクラスタリングに基づくバイパスアーキテクチャ向けコード最適化手法の改良
- FPGAを用いたデータストリームに対するウィンドウジョインの検討(FPGAアクセラレーター,FPGA応用及び一般)
- FPGAを用いたデータストリームに対するウィンドウジョインの検討(FPGAアクセラレーター,FPGA応用及び一般)
- FPGAを用いたデータストリームに対するウィンドウジョインの検討(FPGAアクセラレーター,FPGA応用及び一般)
- コンパイラにおける複数最適化方法の統合技術に関する一考察
- 離散更新可能な間接アドレッシングDSP用のメモリ配置方法(グラフ,ペトリ,ニューラルネット及び一般)
- 離散更新可能な間接アドレッシングDSP用のメモリ配置方法(グラフ,ペトリ,ニューラルネット及び一般)
- 間接アドレッシングにおけるメモリアクセスを考慮した計算順序の一決定方法(通信システム・非線形回路とシステム及び一般)
- 間接アドレッシングにおけるメモリアクセスを考慮した計算順序の一決定方法(通信システム・非線形回路とシステム及び一般)
- X-Yデータ転送に有効なメモリ割り当ての一手法(グラフ,ペトリ,ニューラルネット,及び一般)
- X-Yデータ転送に有効なメモリ割り当ての一手法(グラフ,ペトリ,ニューラルネット,及び一般)
- X-Yデータ転送に有効なメモリ割り当ての一手法
- DSP2000-70 / SST2000-29 新しい重み付評価関数に基づく間接アドレシングDSPのための変数配置方法
- DSP2000-70 / SST2000-29 新しい重み付評価関数に基づく間接アドレシングDSPのための変数配置方法
- ウィンドウ結合演算子のFPGAによる実現(スマートな社会を支えるインターネットアーキテクチャ論文)
- JITコンパイル方式による動的言語処理系の自動並列化の一手法
- JITコンパイル方式による動的言語処理系の自動並列化の一手法
- 三次元空間を用いたプログラムの解析とマルチプロセッサのための分割の一手法(グラフ,ペトリ,ニューラルネット,及び一般)
- JavaRockを用いたHW/SW協調設計の検討 (リコンフィギャラブルシステム)
- プログラミング言語JavaのFPGA向け高位合成言語としての利用の検討(設計手法及び一般,デザインガイア2011-VLSI設計の新しい大地-)