並列事前実行機構における主記憶値テストの高速化(プロセッサアーキテクチャ)

概要

論文の詳細を見る
区間再利用に並列事前実行を組み合わせた,非対称な投機的マルチスレッディング機構を提案する.投機実行スレッドが参照する主記憶位置が通常実行スレッドにより書き換えられた場合,書き換えられたアドレスを記録しておくことで,通常実行による再利用時に最低限必要な主記憶人力値のみを比較することが可能となり,オーバヘッドが削減できることを示す. SPEC95を用いた評価では,最大55%,平均でもSPECintで約20%, SPECfpで約35%のサイクル数を削減することができ,いずれも,投機実行の無効化などの既存手法よりも良好な結果となった.
2004-01-15

著者

森眞一郎
京都大学大学院情報学研究科
五島正裕
東京大学情報理工学系研究科
五島正裕
京都大学
富田眞治
京都大学
富田眞治
京都大学工学部情報工学科
津邑公暁
京都大学
中島康彦
京都大学/科学技術振興機構さきがけ研究21

関連論文

Out-of-orderスーパスカラ・プロセッサの耐過渡故障方式の改良 (ディペンダブルコンピューティング)
Out-of-orderスーパスカラ・プロセッサの耐過渡故障方式の改良 (コンピュータシステム)
タイミング制約を緩和するクロッキング方式の予備評価(アクセラレーションと回路設計,2009年並列/分散/協調処理に関する『仙台』サマー・ワークショップ(SWoPP仙台2009))
並列可視化処理向けFPGA搭載PCIカードへのボリュームレンダリングの予備実装(応用2, FRGAとその応用及び一般)
パス情報を用いた分岐フィルタ機構(プロセッサアーキテクチャ)
スラック予測を用いたクラスタ型スーパースカラ・プロセッサ向け命令ステアリング(ARC-4:スケジューリング,2006年並列/分散/強調処理に関する『高知』サマー・ワークショップ(SWoPP 高知2006))
セル投影型並列ボリュームレンダリングのEarly Ray Terminationによる高速化(並列計算)
中規模コモディティクラスタ向け相互結合網Three Quadsの提案(ネットワーク,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
中規模コモディティクラスタ向け相互結合網Three Quadsの提案(ネットワーク, 「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2006))
DVIによる超高速単方向リンクを用いた並列ボリュームレンダリング(FPGAとその応用及び一般)
DVIによる超高速単方向リンクを用いた並列ボリュームレンダリング
大規模パイプラインステージ統合 : CPU内部からチップセットまで(一般セッションE Funny Architecture I)
並列事前実行における再利用バッファの高速化(一般セッションC 設計と実装)
プロセッサ性能に対する主記憶バンド幅の影響の評価(プロセッサアーキテクチャ)
情報漏洩防止のためのプラットフォーム認証(認証・監視,コンピュータの未来〜エコ、ディペンダビリティ、そして〜及び一般)
ツインテール・アーキテクチャの改良(ARC-1 : アーキテクチャI,2007年並列/分散/協調処理に関する『旭川』サマー・ワークショップ(SWoPP旭川2007))
ツインテール・アーキテクチャの評価(ARC-1:アーキテクチャ1,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
Out-of-orderスーパスカラ・プロセッサの耐過渡故障方式の改良(ディペンダブルアーキテクシャ及び仮想化,ディペンダブルコンピューティングシステム及び一般)
耐永久故障FPGAアーキテクチャ(ディペンダブルアーキテクシャ及び仮想化,ディペンダブルコンピューティングシステム及び一般)
タイミング・フォールト耐性を持つクロッキング方式(耐エラー技術,SWoPP佐賀2008-2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ)
プログラムの繰り返し構造に着目した動的なヘルパースレッディング(ARC-9:並列処理2,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
分岐プレディシジョン(ARC-4:分岐予測,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
パッシブWABの改良による低コストなレジスタ書き込みエラー検出手法(ディペンダブルコンピューティングシステム及び一般)
文字列に着目した情報フロー追跡によるインジェクション攻撃の検出(セキュリティ・その他,組込技術とネットワークに関するワークショップETNET2008)
4K-4 情報漏洩防止のための暗黙的インフォメーションフロー追跡(情報爆発時代における分散処理とセキュリティ,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
動的なインフォメーションフロー制御による情報漏洩防止手法(セキュアアーキテクチャ,「ハイパフォーマンスコンピューティングとアーキテクチャの評価」に関する北海道ワークショップ(HOKKE-2007))
マルチコア・プロセッサの不均質共有キャッシュにおけるLRU大域置き換えアルゴリズム(プロセッサアーキテクチャ)
分散OS Coloniaにおける共有メモリを利用した大域的ネーム・サービス
コンピュータ・コロニーを実現する高速通信機構
コンピュータコロニーにおける高速移送可能な並列アクティビティの実現
並列アプリケーションを指向した分散システムコンピュータ・コロニーの構想
共有メモリベースのシームレスな並列計算機環境を実現するオペレーティングシステムの構想
ディペンダビリティとセキュリティ : デバイス、アーキテクチャ、ソフトウェア(ディペンダブルプロセッサ,ディペンダブルコンピュータシステムとセキュリティ技術及び一般)
並列化コンパイラTINPARにおける自動データ分割決定手法
非均質環境向け並列化コンパイラhetero-TINPER : 動的負荷分散方式の改良
並列化コンパイラTINPARによる非均質計算環境向けコード生成手法
並列化コンパイラTINPARにおける重複プロセッサ間通信の削減手法
並列化コンパイラTINPARにおける自動データ分割部の実現
並列可視化処理向けFPGA搭載PCIカードへのボリュームレンダリングの予備実装(応用2, FRGAとその応用及び一般)
並列可視化処理向けFPGA搭載PCIカードへのボリュームレンダリングの予備実装(応用2, FRGAとその応用及び一般)
グローバル分岐履歴を用いたスラック予測器(ARC-2 : プロセッサアーキテクチャII)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
汎用グラフィクスカードを用いた並列ボリュームレンダリングシステム(並列処理応用)
汎用グラフィクスハードウェアを用いた並列ボリュームレンダリングの実装(ARC-4:並列処理応用と実装技術)(2003年並列/分散/協調処理に関する『松江』サマー・ワークショップ(SWoPP松江2003))
J-16 サイクリックにデータを配置した並列ボリュームレンダリング処理におけるERTの効果(レンダリングと自然物,J.グラフィクス・画像)
汎用グラフィクスカードを用いた格子ボルツマン法による流体シミュレーション
DVIによる超高速単方向リンクを用いた並列ボリュームレンダリング(FPGAとその応用及び一般)
DVIによる超高速単方向リンクを用いた並列ボリュームレンダリング(FPGAとその応用及び一般)
DVIによる超高速単方向リンクを用いた並列ボリュームレンダリング(FPGAとその応用及び一般)
DVIによる超高速単方向リンクを用いた並列ボリュームレンダリング
フロントエンド実行によるプリロードの提案(ARC-2 : プロセッサアーキテクチャII)(2004年並列/分散/協調処理に関する『青森』サマー・ワークショップ(SWoPP青森2004) : 研究会・連続同時開催)
フロントエンド実行(マルチスレッド実行とプロセッサアーキテクチャ)
リザーベーションステーションと物理レジスタ・ファイルを併用するスーパースケーラ・プロセッサ(ARC-1:プロセッサ)(2003年並列/分散/協調処理に関する『松江』サマー・ワークショップ(SWoPP松江2003))
行列に基づくOut-of-Orderスケジューリング方式の評価
直接依存行列型スケジューリングを適用したクラスタ化スーパースケーラ・プロセッサの評価
並列計算機JUMP-1の性能評価
2000-ARC-139-4 並列計算機JUMP-1における分散共有メモリシステムの性能評価
超並列計算機JUMP-1における分散共有メモリ管理の実装とその評価
メモリ・アクセスの局所性を最適化するループ再構成法
メモリ・アクセスの局所性を最適化するループ再構成法
メモリ・アクセスの局所性を最適化するループ再構成法
共有メモリベースのシームレスな並列計算機環境を実現するオペレーティングシステムの構想
超並列計算機JUMP-1のクラスタの実装及び予備的性能評価
超並列計算機プロトタイプJUMP-0.5における分散共有メモリ管理手法
距離画像生成処理におけるメディアプロセッサの評価(メディアプロセッサ)
ステレオ画像処理を用いた曖昧再利用の評価(画像処理における再利用)
Dual-Flow : 制御駆動とデータ駆動を融合したプロセッサ・アーキテクチャ
関数値再利用および並列事前実行による高速化技術
関数値再利用および並列事前実行による高速化技術の提案と評価
関数値再利用および並列事前実行による高速化技術の提案と評価
汎用グラフィクスカードを用いた格子ボルツマン法による流体シミュレーション(プロセッサアーキテクチャと応用)
動的負荷分散機能を備えたセル投影型並列ボリュームレンダリングシステムの実装
大規模ボリュームレンダリング処理における擬似透視投影法に関する考察
Self-Cleanup Cacheを採用したNCC-NUMAアーキテクチャの評価
Self-Cleanup Cacheの提案
超並列計算機JUMP-1のキャッシュシステムの論理設計検証
合成ディレクティブを組み込んだ動作レベル設計記述言語
合成ディレクティブを組み込んだ動作レベル設計記述言語
汎用GPUを用いた大規模可視化クラスタの構築
スーパースケーラのための高速な動的命令スケジューリング方式
並列ボリュームレンダリングにおける投機的描画に関する考察(ARC-8: 応用システム, 2005年並列/分散/協調処理に関する『武雄』サマー・ワークショップ(SWoPP武雄2005)-研究会・連続同時開催-)
汎用グラフィクスカード上での簡易シミュレーションと可視化(CPSY-6 並列分散プラットホーム)(2004年並列/分散/協調処理に関する「青森」サマーワークショップ(SWoPP青森2004))
スーパースケーラのための高速な命令スケジューリング方式のIPCの評価
数値シミュレーション過程の実時間可視化を支援するハードウェア
ReVolver/C40を用いた時系列ボリュームデータの実時間可視化
アクティブボリュームレンダリングに基づくシミュレーションステアリング
曖昧再利用によるステレオ画像処理の高速化
2000-OS-85-4 分散OS Coloniaにおける並列アクティビティの高速移送
低電力化のための投機的クロック供給制御
低電力化のための投機的クロック供給制御
ボリュームレンダリング専用並列計算機ReVolver/C40の性能評価
ボリュームレンダリング専用並列計算機ReVolver/C40の性能評価
ボリュームレンダリング専用並列計算機ReVolver/C40の性能評価
Re Volver/C40の設計及び実装
階層格子ボリュームデータの実時間可視化
汎用CAMを用いた区間再利用プロセッサシミュレータの高速化(CPSY-3 性能評価)(2004年並列/分散/協調処理に関する「青森」サマーワークショップ(SWoPP青森2004))
2次キャッシュを用いた再利用および並列事前実行機構における高速化手法(高速化手法)
曖昧再利用によるMP3エンコーダの高速化手法
動的命令解析に基づく多重再利用および並列事前実行(アーキテクチャとシステムソフトウェア)
並列事前実行機構における主記憶値テストの高速化(プロセッサアーキテクチャ)
曖昧再利用によるステレオ画像処理の高速化

並列事前実行機構における主記憶値テストの高速化(プロセッサアーキテクチャ)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク