コンフリクトフリーなオフライン置換のGPU実装(GPU・マルチコア,クラウド、ネットワーク及び一般)
スポンサーリンク
概要
- 論文の詳細を見る
ディスクリートメモリーマシン(DMM)はGPUの共有メモリの理論的特徴を表現する理論並列計算モデルである.共有メモリアクセスのバンド幅を最大化するためには,バンクコンフリクトを避ける必要がある.配列のオフライン置換は,与えられた置換によって配列aのすべての要素を配列bにコピーするタスクである.本論文では,GPUにおけるDMMのコンフリクトフリーな置換アルゴリズムの実装を提案する.また,GPUで単純な置換を実装し,それらの性能の比較をおこなった.NVIDIA GeForce GTX-680を用い,1024個のfloat型の数に対して実験した結果,単純な置換アルゴリズムでは,ランダムな置換に対して246ns,ビット反転の置換に対して877nsかかった.驚くべきことに,提案するコンフリクトフリーな置換アルゴリズムでは,メモリアクセス操作の回数が多くなるにもかかわらず,それぞれの置換に対して165nsで実行した.つまり,提案するコンフリクトフリーな置換アルゴリズムを用いることで,ランダムな置換に対して1.5倍,ビット反転の置換に対して5.3倍の高速化を実現した.
- 2012-10-05
著者
-
中野 浩嗣
広島大学大学院工学研究科
-
伊藤 靖朗
広島大学大学院工学研究科
-
中野 浩嗣
北陸先端科学技術大学院大学情報科学研究科
-
中野 浩嗣
北陸先端科学技術大学院大学
-
笠置 明彦
広島大学大学院工学研究科
-
笠置 明彦
広島大学大学院工学研究院
関連論文
- 教育用・小規模組込みシステム用の超小型プロセッサと言語処理系
- 教育用・小規模組込みシステム用の超小型プロセッサと言語処理系
- 小型組込みシステムと教育のためのFPGA向けTiny Processing System(応用2)
- COMP2000-24 マルチホップパケット無線ネットワーク上のブロードキャストの確率アルゴリズム
- An efficient implementation of exhaustive verification of the Collatz conjecture using DSP48E blocks of Xilinx Virtex-5 FPGAs (リコンフィギャラブルシステム)
- FPGAのDSPブロックを最大限利用するRSA暗号ハードウェアアルゴリズム (ワイドバンドシステム)
- FPGAのDSPブロックを最大限利用するRSA暗号ハードウェアアルゴリズム (情報セキュリティ)
- FPGAのDSPブロックを最大限利用するRSA暗号ハードウェアアルゴリズム (情報処理)
- FPGAを用いたコラッツ予想の検証(応用3)
- ロジックエレメントを節約したFPGAラベリング(応用1)
- FPGAを用いたk-Concaveな二値画像に対するラベリング
- D-8-19 情報取得能力の多様化による複数種生物の共存と進化の研究
- Xilinx Virtex-5 FPGAのDSP48Eブロックを用いたコラッツ予想の検証の効率的実装(システムアーキテクチャ)
- FPGAを用いたCKYパージングの高速化
- シングルホップ・シングルチャネル無線ネットワーク上の時間と電力消費について最適な確率的ルーティング
- シングルホップ無線ネットワーク上の省電力初期化アルゴリズム
- ワイヤレスセンサーネットワーク上の基本プロトコル
- ワイヤレスセンサーネットワーク上の省電力初期化アルゴリズム
- アドホック無線ネットワーク上の省電力初期化アルゴリズム
- マルチホップパケット無線ネットワーク上のブロードキャストの確率アルゴリズム
- COMP2000-25 アドホック無線ネットワーク上の省電力初期化アルゴリズム
- FPGAのDSPブロックを最大限利用するRSA暗号ハードウェアアルゴリズム(一般:情報通信基礎サブソサイエティ合同研究会)
- FPGAのDSPブロックを最大限利用するRSA暗号ハードウェアアルゴリズム(一般:情報通信基礎サブソサイエティ合同研究会)
- FPGAのDSPブロックを最大限利用するRSA暗号ハードウェアアルゴリズム(一般:情報通信基礎サブソサイエティ合同研究会)
- COMP2000-23 マルチスレッドアーキテクチャへの高級言語を用いた並列アルゴリズムのインプリメント
- PRAMアルゴリズムのマルチスレッドアーキテクチャへのインプリメントと評価
- 再構成メッシュ上の並列アルゴリズムの視覚化ツール
- 再構成メッシュ上でO((loglog n)^2)時間で凸包を求めるアルゴリズム
- 重みのある場合とない場合に, k 個のソートされた列に対する選択問題を解くアルゴリズム
- 近接点を見つける最適な並列アルゴリズムとその応用
- 組合せ論理回路に対するイベント駆動による再評価
- 復元画像の最適化によるハーフトーン化 : ハードウェアによる高速化を含めた新しい手法
- さまざまなスクリーニング法 (特集:プリンティング・テクノロジー2008)
- Juraj Hromkovic, 和田幸一, 増澤利光, 元木光雄 訳, 計算困難問題に対するアルゴリズム理論, Algorithmics for Hard Problems, シュプリンガーフェアラーク東京, 2005年
- Direct Binary Search 法によるマルチトニング(計算機科学の理論とその応用)
- 無線通信プロトコルの理論的研究の現状(オピニオン)
- FPGAを用いた画像検索システム
- FPGAを用いた画像検索システム
- kチャンネル放送通信モデル上の時間と消費電力について最適なリストランキングアルゴリズム
- 無線ネットワーク上のユニフォームなリーダ選択プロトコル
- 衝突検出のない無線ネットワーク上のリーダ選択プロトコル
- 衝突検出できない無線ネットワーク上の省電力初期化プロトコル
- 動的可変バスをもつ並列計算機上の定数時間アルゴリズム
- 二分決定木を用いた論理関数の質問処理
- 凸包問題を解く最適並列アルゴリズム
- 優先順位付きバスシステムの実現法
- 区間最大値を求める単純な並列アルゴリズム
- コーダルリング上における分散リーダ選択問題の通信計算量とリンク長のトレードオフ
- 二つの凸多角形の重なりを求める最適な並列アルゴリズム
- 画像連結成分を効率よく求めるバス付き2次元格子上の並列アルゴリズム
- バス付き2次元格子上の通信をシミュレ-トする並列アルゴリズム
- バス付き1次元格子上の並列ソ-ティングアルゴリズム
- 仕事・時間量について最適なPRAM上のkマージアルゴリズム
- 基本再構成メッシュ上の行最小値計算のための効率よいアルゴリズム
- An Optimal Algorithm for the Angle-Restricted All Nearest Neighbor Problem on the Reconfigurable Mesh
- 超立方体グラフの切断幅と2分割幅
- An FPGA Implementation for 3-layer Perceptron with the FDFM Processor Core Approach (リコンフィギャラブルシステム)
- A GPU Implementation of Conflict-Free Offline Permutation (コンピュータシステム)
- An Efficient Implementation of Ant Colony Optimization for the Traveling Salesman Problem on the GPU (コンピュータシステム)
- An implementation of Hough Transform Using DSP blocks and block RAMs on the FPGA (コンピュータシステム)
- バリア同期付き非同期メモリマシンモデル
- バリア同期付き非同期メモリマシンモデル
- FDFMアプローチを用いた3層パーセプトロンのFPGA実装(数値計算と高速化)
- GPU向けメモリマシンモデル上の最適な並列接頭部和アルゴリズム(GPGPU,2012年並列/分散/協調処理に関する『鳥取』サマー・ワークショップ(SWoPP鳥取2012))
- FPGAのDSPブロックとブロックRAMを用いたハフ変換の実装(ハードウェア,クラウド、ネットワーク及び一般)
- GPUを用いた巡回セールスマン問題に対する蟻コロニー最適化の効果的な実装(GPU・マルチコア,クラウド、ネットワーク及び一般)
- コンフリクトフリーなオフライン置換のGPU実装(GPU・マルチコア,クラウド、ネットワーク及び一般)
- Hierarchical Memory Machine上の最適なオフライン置換アルゴリズムとGPU実装 (コンピュータシステム)
- バリア同期付き非同期メモリマシンモデル(演算機構,組込み技術とネットワークに関するワークショップETNET2013)
- バリア同期付き非同期メモリマシンモデル(演算機構,組込み技術とネットワークに関するワークショップETNET2013)
- GPUにおける局所的網羅探索を用いたアスキーアート生成法(アクセラレータ,並列/分散/協調とディペンダブルコンピューティング及び一般)
- FPGAのDSPスライスを用いたテンプレートマッチング(アクセラレータ,並列/分散/協調とディペンダブルコンピューティング及び一般)
- Hierarchical Memory Machine上の最適なオフライン置換アルゴリズムとGPU実装(アクセラレータ,並列/分散/協調とディペンダブルコンピューティング及び一般)
- Parallel Algorithms for the Summed Area Table on the Asynchronous Hierarchical Memory Machine, with GPU implementations (コンピュータシステム)
- FDFMアプローチを用いた3層パーセプトロンのFPGA実装