バリア同期付き非同期メモリマシンモデル(演算機構,組込み技術とネットワークに関するワークショップETNET2013)
スポンサーリンク
概要
- 論文の詳細を見る
The Discrete Memory Machine (DMM)とthe Unified Memory Machine (UMM)は,GPUのシェアードメモリとグローバルメモリヘのアクセスの本質をとらえた並列計算モデルである.フープと呼ばれるスレッドの集まりごとに順にラウンドロビンに実行される.しかし,実際のGPUでは任意にフープが選ばれ実行される.本稿では,フープが任意に実行される非同期DMMと非同期UMMを提案する.そのかわり,synchthreads命令によりバリア同期が行なえるものと仮定する.バリア同期のコストは大きいので,バリア同期の回数を評価し,その回数を最小化するようにアルゴリズムを設計すべきである.本稿では,n個の合計を求める,バリア同期の回数の少ない並列アルゴリズムを示す.
- 2013-03-06
著者
関連論文
- 教育用・小規模組込みシステム用の超小型プロセッサと言語処理系
- 教育用・小規模組込みシステム用の超小型プロセッサと言語処理系
- 小型組込みシステムと教育のためのFPGA向けTiny Processing System(応用2)
- An efficient implementation of exhaustive verification of the Collatz conjecture using DSP48E blocks of Xilinx Virtex-5 FPGAs (リコンフィギャラブルシステム)
- FPGAのDSPブロックを最大限利用するRSA暗号ハードウェアアルゴリズム (ワイドバンドシステム)
- FPGAのDSPブロックを最大限利用するRSA暗号ハードウェアアルゴリズム (情報セキュリティ)
- FPGAのDSPブロックを最大限利用するRSA暗号ハードウェアアルゴリズム (情報処理)
- FPGAを用いたコラッツ予想の検証(応用3)
- ロジックエレメントを節約したFPGAラベリング(応用1)
- FPGAを用いたk-Concaveな二値画像に対するラベリング
- Xilinx Virtex-5 FPGAのDSP48Eブロックを用いたコラッツ予想の検証の効率的実装(システムアーキテクチャ)
- FPGAのDSPブロックを最大限利用するRSA暗号ハードウェアアルゴリズム(一般:情報通信基礎サブソサイエティ合同研究会)
- FPGAのDSPブロックを最大限利用するRSA暗号ハードウェアアルゴリズム(一般:情報通信基礎サブソサイエティ合同研究会)
- FPGAのDSPブロックを最大限利用するRSA暗号ハードウェアアルゴリズム(一般:情報通信基礎サブソサイエティ合同研究会)
- Juraj Hromkovic, 和田幸一, 増澤利光, 元木光雄 訳, 計算困難問題に対するアルゴリズム理論, Algorithmics for Hard Problems, シュプリンガーフェアラーク東京, 2005年
- Direct Binary Search 法によるマルチトニング(計算機科学の理論とその応用)
- 無線通信プロトコルの理論的研究の現状(オピニオン)
- バリア同期付き非同期メモリマシンモデル
- バリア同期付き非同期メモリマシンモデル
- FDFMアプローチを用いた3層パーセプトロンのFPGA実装(数値計算と高速化)
- GPU向けメモリマシンモデル上の最適な並列接頭部和アルゴリズム(GPGPU,2012年並列/分散/協調処理に関する『鳥取』サマー・ワークショップ(SWoPP鳥取2012))
- FPGAのDSPブロックとブロックRAMを用いたハフ変換の実装(ハードウェア,クラウド、ネットワーク及び一般)
- GPUを用いた巡回セールスマン問題に対する蟻コロニー最適化の効果的な実装(GPU・マルチコア,クラウド、ネットワーク及び一般)
- コンフリクトフリーなオフライン置換のGPU実装(GPU・マルチコア,クラウド、ネットワーク及び一般)
- バリア同期付き非同期メモリマシンモデル(演算機構,組込み技術とネットワークに関するワークショップETNET2013)
- バリア同期付き非同期メモリマシンモデル(演算機構,組込み技術とネットワークに関するワークショップETNET2013)
- GPUにおける局所的網羅探索を用いたアスキーアート生成法(アクセラレータ,並列/分散/協調とディペンダブルコンピューティング及び一般)
- FPGAのDSPスライスを用いたテンプレートマッチング(アクセラレータ,並列/分散/協調とディペンダブルコンピューティング及び一般)
- Hierarchical Memory Machine上の最適なオフライン置換アルゴリズムとGPU実装(アクセラレータ,並列/分散/協調とディペンダブルコンピューティング及び一般)
- FDFMアプローチを用いた3層パーセプトロンのFPGA実装