GPUにおける格納形式自動選択による疎行列ベクトル積の高速化
スポンサーリンク
概要
- 論文の詳細を見る
近年,科学技術計算の分野で GPGPU が注目されている.科学技術計算では,特に疎行列ベクトル積を用いることが多いため,疎行列ベクトル積の高速化が重要である.疎行列には多くの格納形式があるが,疎行列によって最適な格納形式は異なる.そこで,本研究では与えられた疎行列によって最適な格納形式に変換してから,疎行列ベクトル積を行うことで高速化を図る.まず予備実験として,いくつかの疎行列の格納形式について,疎行列ベクトル積を実装し,実行速度を測定した.その後,予備実験の結果をもとに自動選択するためのパラメータを決定し,自動選択アルゴリズムを実装する.また,実装したアルゴリズムを,反復法による連立一次方程式の求解を用いて評価した.その結果,多くの疎行列において最適な格納形式を選択し高速化することに成功した.
- 2010-12-09
著者
関連論文
- マルチコア超並列クラスタにおけるVolumetric並列三次元FFTの実現と評価(並列アプリケーション実装,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 円周率世界記録更新 : 2兆5769億8037万桁への道
- T2K筑波システムにおけるLinpack性能評価(HPC-4:性能評価,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- Short Vector SIMD命令を用いた並列FFTの実現と評価(性能最適化)
- 大規模固有値問題のmaster-worker型並列解法(数値計算)
- "FIRST"-第一世代天体の起源解明のための専用・汎用計算機融合型クラスタ(HPC-8: 高性能クラスタ)
- EthernetマルチリンクによるPCクラスタ向け高バンド幅・耐故障ネットワークRI2N/UDP(ネットワーク)
- tagged-VLANとマルチリンクに基づくPCクラスタ向け高性能・耐故障ネットワークの実装と評価(Session 3:Cluster/Grid)
- VFREC-Net : ドライバ制御によるtagged-VLANを用いたPCクラスタ向けマルチパスネットワーク(ネットワーク)
- EthernetマルチリンクによるPCクラスタ向け耐故障ネットワークRI2N/UDP(ネットワーク,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- EthernetマルチリンクによるPCクラスタ向け耐故障ネットワークRI2N/UDP(ネットワーク, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- tagged-VLANに基づくPCクラスタ向け高バンド幅ツリーネットワークの開発(HPCシステム)
- PCクラスタにおける電力実行プロファイル情報を用いたDVS制御による電力性能の最適化(クラスタシステム)
- PCクラスタにおける電力実行プロファイル情報を用いたDVS制御による電力性能の最適化(省電力,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- PCクラスタにおける電力実行プロファイル情報を用いたDVS制御による電力性能の最適化(省電力, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- 計算環境に依存しない行列計算ライブラリインタフェースSILC(一般講演2)
- 探索結果を利用した実現確率探索
- GPUにおける格納形式自動選択による疎行列ベクトル積の高速化
- GPUにおける格納形式自動選択による疎行列ベクトル積の高速化
- GPUによる4倍精度BLASの実装と評価
- GPUによる4倍精度BLASの実装と評価
- 行列積を用いた古典Gram-Schmidt直交化法の並列化
- モンテカルロ木探索によるコンピュータ将棋
- マルチコア超並列環境におけるFFTの自動チューニング(数値計算のための自動チューニング(続))
- 行列積を用いた古典Gram-Schmidt直交化の並列化手法の検討(数値計算2)
- DVFS制御を目的としたプログラムの領域分割(Session 6:低消費電力)
- MegaProto/Eにおける電力性能評価および電力性能最適化の検討(Session 6:低消費電力)
- DVS制御による負荷不均衡のある並列プログラムの電力量削減手法(クラスタシステム)
- PCクラスタにおける全体電力プロファイルを用いた電力性能最適化(ARC-1:低電力アーキテクチャ,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
- DVS制御による負荷不均衡のある並列プログラムの電力量削減手法(省電力,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- DVS制御による負荷不均衡のある並列プログラムの電力量削減手法(省電力, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
- 超並列クラスタにおける3D-RISMへのVolumetric並列三次元FFTの適用と性能評価
- マルチコアプロセッサと SIMD 演算によるモンテカルロ木探索を用いたオセロの実装
- マルチコア超並列クラスタにおけるVolumetric並列三次元FFTの実現と評価(並列アプリケーション実装,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 2U-4 モンテカルロ法によるコンピュータ将棋の実現(ゲーム・知識ベース,学生セッション,人工知能と認知科学)
- SC|05報告
- GPUによる4倍精度BLASの実装と評価
- GPUによる4倍精度BLASの実装と評価
- 超並列クラスタにおける3D-RISMへの Volumetric 並列三次元FFTの適用と性能評価
- マルチコアプロセッサとSIMD演算によるモンテカルロ木探索を用いたオセロの実装
- 複数グリッドジョブ実行システムの計算資源を統合・利用するGrid RPCシステムの設計と実装(グリッドシステム)
- グリッドRPCシステムOmniRPCにおける初期データの分散管理による効率化(グリッドRPC)
- オンチップRAM利用による電力性能の最適化と評価(ARC-3: 低電力アーキテクチャ1, 2005年並列/分散/協調処理に関する『武雄』サマー・ワークショップ(SWoPP武雄2005)-研究会・連続同時開催-)
- 複数グリッドミドルウエア上で動作するGrid RPCシステムOmniRPCの設計と実装(HPC-4: グリッド)
- MPIを通信レイヤに用いるソフトウェア分散共有メモリシステム(ソフトウエアDSM)