メニーコアプロセッサを対象とした柔軟性を有するハードウェアバリア機構の提案
スポンサーリンク
概要
- 論文の詳細を見る
チップ上に多数のプロセッサコアを搭載するメニーコアプロセッサの使い方として、複数のコアで数個をグループを構成し、それぞれに異なるアプリケーションやタスクを実行させるマルチスレッド・マルチプログラム実行法がある。複数コアで一つの処理を行う場合にはコア間で同期を取る必要がある。一般に、同期処理はソフトウェアで実装されるが、コア数の増加に伴い、ソフトウェア同期に要する時間や、同期完了時刻のばらつきが大きくなるという問題が生じる。本研究では、ハードウェアバリアを用いることによって、これらの問題を解決する。また、バリアに参加するコアを選択可能にする回路を追加することで、コアグループ間での独立した同期処理を実現すると共に、複数グループに対して同時に異なるバリア同期を実施することを可能にしている。実験により、ソフトウェアバリアに対して 66 倍のレイテンシ改善を実現した。また、ハードウェア記述言語を用いた設計を行った結果、実験に使用したメニーコアプロセッサモデルに対して最大 1.8% の回路規模の増加で実現できることが分かった。
- 2012-03-20
著者
-
佐々木 広
東京大学先端科学技術研究センター
-
平尾 智也
財団法人九州先端科学技術研究所
-
井上 弘士
九州大学大学院システム情報科学研究院
-
井上 弘士
福岡大学工学部 電子情報工学科
-
曽我 武史
九州先端科学技術研究所
-
Inoue K
Kyushu
-
井上 弘士
九大 大学院システム情報科学研究院
関連論文
- 演算/メモリ性能バランスを考慮したCMP向けオンチップ・メモリ貸与法の提案(マイクロプロセッサ)
- 情報社会を支えるディペンダブル・プロセッサ
- リーク電力削減のためのコンパイラによるスリープ制御の初期検討(コンパイラ技術およびメニーコアアーキテクチャ)
- ヘテロ構成を考慮したWebサーバ用クラスタシステムの性能と電力のモデリング(ARC-10:クラスタ技術,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- CMPの統計的モデリングによる実行時最適化手法(ARC-2:マルチコア1,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- リソース競合を考慮したチップマルチプロセッサ向けプロセススケジューリング(セッション4:マルチコア向けシステムソフトウェア)
- 性能予測モデルの学習と実行時性能最適化機構を有する省電力化スケジューラ(省電力方式)
- 多様な資源を事前予約で同時確保するためのグリッドコアロケーションシステムフレームワークGridARS(グリッド)
- 科学技術計算を対象とした大規模再構成可能データパスの性能評価(コンピュータシステム技術,先端的コンピュータシステム技術及び一般)
- 片側通信を用いた並列フラグメント分子軌道計算プログラムの実装(HPC-5 : アプリケーションI)
- C-12-29 演算/メモリ性能のバランスを考慮したマルチコア実行方式(C-12.集積回路,一般セッション)
- チップマルチプロセッサにおけるメモリ負荷変動の定量的解析(集積回路とアーキテクチャの協創 : どう繋ぐ?どう使う?マルチコア)
- 統計情報に基づく省電力 Linux スケジューラ(OS-1 : 実行基盤)
- Webサーバ用計算機クラスタの性能と電力のモデリングに関する研究(ARC-9 : システム制御,2007年並列/分散/協調処理に関する『旭川』サマー・ワークショップ(SWoPP旭川2007))
- CMPにおけるリソース競合に着目した性能の解析とモデリング(ARC-5 : マルチプロセッサ応用,2007年並列/分散/協調処理に関する『旭川』サマー・ワークショップ(SWoPP旭川2007))
- トラクションコントロール実行 : CMP向け実行制御方式の検討(ARC-5 : マルチプロセッサ応用,2007年並列/分散/協調処理に関する『旭川』サマー・ワークショップ(SWoPP旭川2007))
- Webサーバ用計算機クラスタの電力効率最適化に関する初期検討(クラスタ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- 命令グルーピングによる効率的な命令実行方式(プロセッサアーキテクチャ)
- C-12-32 演算器配列型アクセラレータの温度解析(C-12.集積回路,一般セッション)
- SRAM/DRAMハイブリッド・キャッシュにおける実行時動作モード決定法の提案
- 近似文字列照合プログラム実行の特徴解析と高速化に関する検討(解析・省電力,SWoPP2006)
- クラウド環境によるOpenNSIMインターコネクトシミュレーションサービス
- クラウド環境によるOpenNSIMインターコネクトシミュレーションサービス
- マルチコアCPUの電力消費特性を考慮した仮想CPUスケジューラ
- NSIM:将来の大規模相互結合網を対象とした通信シミュレータの開発
- 共有キャッシュ分割を考慮したCMP向けプリフェッチスロットリング手法
- モデリングに基づくWebサーバ用計算機クラスタの低消費電力化
- マルチコア向けオンチップメモリ貸与法における実行コード生成法の改善
- マルチコア向けオンチップメモリ貸与法における実行コード生成法の改善
- コンパイラによる細粒度スリープ制御のためのアーキテクチャ支援技術の検討
- 性能制約下における共有資源へのアクセス制御とDVFSを用いたチップマルチプロセッサの省電力化
- 性能制約下における共有資源へのアクセス制御とDVFSを用いたチップマルチプロセッサの省電力化
- トラクションコントロール実行:CMP向けプロセス実行制御方式の提案
- C-12-31 命令フェッチ機構の共有に基づく低消費エネルギー化手法の提案(C-12.集積回路,一般セッション)
- 大規模再構成可能データパスにおける実行前処理削減方式の検討
- 大規模再構成可能データパスにおける実行前処理削減方式の検討
- 適応的ヘルパースレッド実行に基づくマルチコア向け演算/メモリ性能バランシング
- 3次元DRAM-プロセッサ積層実装を対象としたオンチップ・メモリ・アーキテクチャの提案と評価
- 適応的ヘルパースレッド実行に基づくマルチコア向け演算/メモリ性能バランシング
- 3次元DRAM-プロセッサ積層実装を対象としたオンチップ・メモリ・アーキテクチャの提案と評価
- 大規模再構成可能データパスプロセッサの設計手法(アクセラレーション/メモリシステム,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- 大規模再構成可能データパスプロセッサの設計手法(アクセラレーション/メモリシステム,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2009))
- シミュレーション結果の再利用に基づくキャッシュ・ミス率予測法の提案(組込みシステムプラットフォーム)
- パケットペーシングを用いた最適全対全通信アルゴリズムのシミュレーション評価
- PSI-NSIM : 大規模並列システムの性能解析に向けた並列相互結合網シミュレータ(コンピュータシステム技術,先端的コンピュータシステム技術及び一般)
- 次世代スーパーコンピュータの設計開発に向けたシステム性能評価環境PSI-SIM(HPC-16 : 性能評価)
- 大規模並列システムの性能評価を目的としたプログラムコード抽象化技法(HPC-3 : スケジューリング)
- Webサーバ用計算機クラスタの電力効率最適化に関する初期検討(クラスタ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- 性能制約下における共有資源へのアクセス制御とDVFSを用いたチップマルチプロセッサの省電力化
- 性能制約下における共有資源へのアクセス制御とDVFSを用いたチップマルチプロセッサの省電力化
- WindowsNT上でのクロス開発環境を目指す並列化支援ツールの開発
- 演算/メモリ性能バランスを考慮したCMP向けオンチップ・メモリ貸与法の提案(マイクロプロセッサ)
- Cellプロセッサへの分子軌道法プログラムの実装と評価(HPC-6 : 並列アプリケーション)
- タンパク質分子構造を例とする高性能計算結果の可視化システムの試作
- シミュレーション結果の再利用に基づくキャッシュ・ミス率予測法の提案(組込みシステムプラットフォーム)
- シミュレーション結果の再利用に基づくキャッシュ・ミス率予測法の提案(組込みシステムプラットフォーム)
- 通信衝突削減のためのタスク配置最適化の評価(スケジューリング,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2008))
- 通信衝突削減のためのタスク配置最適化の評価(スケジューリング,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2008))
- 通信タイミングを考慮した衝突削減のためのMPIランク配置最適化技術(並列計算)
- 負荷ばらつきを考慮したMPIブロードキャスト通信の動的最適化に関する研究(HPC-11 : 通信I)
- 通信タイミングを考慮したランク配置最適化技術(通信,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- 通信タイミングを考慮したランク配置最適化技術(通信,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
- Proposal of a Desk-Side Supercomputer with Reconfigurable Data-Paths Using Rapid Single-Flux-Quantum Circuits
- Drowsyキャッシュにおけるモード切替アルゴリズムの評価(省電力アーキテクチャ)
- 目的コードサイズ縮小のための短形式命令サブセットの最適構成
- 目的コードサイズ縮小のための短形式命令サブセットの最適構成
- ソフトウエアシミュレーションによるシステムLSI設計・検証ツールの評価
- Improving Performance and Energy Saving in a Reconfigurable Processor via Accelerating Control Data Flow Graphs
- メモリアクセスの特徴を活用した高速かつ正確なメモリアーキテクチャ・シミュレーション法(プロセッサシミュレーション)
- メモリ・アーキテクチャ・ベンチマーキング手法の提案(2006年並列/分散/協調処理に関する『高知』サマー・ワークショップ(SWoPP高知2006))
- チップマルチプロセッサにおけるキャッシュメモリの特性解析(ARC-5:キャッシュ,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
- 統計情報に基づく動的電源電圧制御手法(省電力方式)
- 統計情報に基づく実行時最適化の検討(ARC-10:動的最適化とプロセッサ応用,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
- 依存情報を用いた命令グループ化による動的命令スケジューリング機構の電力削減手法(集積回路技術とアーキテクチャ技術の協調・融合へ向けた,プロセッサ,並列処理,システムLSIアーキテクチャ及び一般)
- 依存情報を用いた命令グループ化による動的命令スケジューリング機構の電力削減手法(集積回路技術とアーキテクチャ技術の協調・融合へ向けた,プロセッサ,並列処理,システムLSIアーキテクチャ及び一般)
- 統計処理に基づくコンパイラ協調型DVFS手法(コンパイラ技術, SHINING 2006 「アーキテクチャとコンパイラの協調および一般」)
- 動的命令カスケーディングによるGALS型マイクロプロセッサの高性能化(回路技術(一般, 超高速・低電力・高機能を目指した新アーキテクチャ))
- GALS型プロセッサにおける動的命令カスケーディング(ARC-4: 低電力アーキテクチャ2, 2005年並列/分散/協調処理に関する『武雄』サマー・ワークショップ(SWoPP武雄2005)-研究会・連続同時開催-)
- GALS型構成を用いたクラスタ化スーパースカラにおける低消費電力化の検討(アーキテクチャ全般)(デザインガイア2004-VLSI設計の新しい大地を考える研究会-)
- Rapid Design Space Exploration of a Reconfigurable Instruction-Set Processor
- A Reconfigurable Functional Unit with Conditional Execution for Multi-Exit Custom Instructions
- Temperature-Aware Configurable Cache to Reduce Energy in Embedded Systems
- A hybrid design space exploration approach for a coarse-grained reconfigurable accelerator (システムLSI設計技術)
- A hybrid design space exploration approach for a coarse-grained reconfigurable accelerator (VLSI設計技術)
- A hybrid design space exploration approach for a coarse-grained reconfigurable accelerator (コンピュータシステム)
- A hybrid design space exploration approach for a coarse-grained reconfigurable accelerator (リコンフィギャラブルシステム)
- Custom Instructions with Multiple Exits : Generation and Execution
- A Reconfigurable Functional Unit for Adaptable Custom Instructions
- データ値の局所性を利用したライン共有キャッシュの提案
- パケットペーシングを用いた集団通信アルゴリズムのシミュレーション評価
- メニーコアプロセッサにおける競合とスケーラビリティを考慮したスレッドスケジューリング
- メニーコアプロセッサにおける競合とスケーラビリティを考慮したスレッドスケジューリング
- メニーコアプロセッサにおける競合とスケーラビリティを考慮したスレッドスケジューリング
- メニーコアプロセッサにおける競合とスケーラビリティを考慮したスレッドスケジューリング
- メニーコアプロセッサを対象とした柔軟性を有するハードウェアバリア機構の提案
- キャッシュデータをマイグレーションするCMPにおけるスレッドマイグレーション(ハードウェア,ネットワーク,クラウド及び一般)
- 細粒度な空き時間を利用したコンパイラによるリーク電力削減手法 (コンピューティングシステム Vol.4 No.4)
- FPGAを用いたメニーコア・アーキテクチャSMYLErefの評価環境の構築(評価,集積回路とアーキテクチャの協創〜ノーマリオフコンピューティングによる低消費電力化への挑戦〜)
- FPGAを用いたメニーコア・アーキテクチャ SMYLEref の評価環境の構築
- SMYEOpenCLの実装と128コア上での評価実験(並列処理,集積回路とアーキテクチャの協創〜新しいアプリケーション創造に向けたアーキテクチャ、回路技術の貢献〜)