仮想リオーダ・バッファ方式におけるロード/ストア・キューの単純化(プロセッサ・アーキテクチャ,集積回路とアーキテクチャの協創〜ノーマリオフコンピューティングによる低消費電力化への挑戦〜)
スポンサーリンク
概要
- 論文の詳細を見る
データ・プリフェッチを実現する方法の1つに命令の先行実行がある.過去に我々は,単一スレッド環境で命令の先行実行を実現する手法として仮想リオーダ・バッファ(VROB:virtual reorder buffer)方式を提案した.この手法を用いれば,多くのロード命令のレイテンシが短縮され,大きな性能向上を達成できることを示した.しかし,VROB方式ではプロセッサ内に多くの先行実行命令を保持する必要があるため,素朴な実装では重要な資源(リオーダ・バッファ,レジスタ・ファイル,発行キュー,ロード/ストア・キュー(LSQ:load/store queue))のサイズを大きくする必要があり,クロック・サイクル時間に悪影響を与える.過去の研究では,この問題について,LSQ以外では解決されていたが,LSQだけは解決されていなかった.本論文では,先行実行ロードに対するin-flightストアへの依存を無視することにより,先行実行のために必要であったLSQを削除し,クロック・サイクル時間への悪影響を除去することを提案する.メモリ・インテンシブなプログラムが多いSPECfp2000ベンチマークを用いて評価を行った結果,十分に大きなLSQを持ち,正しく依存を守る場合に比べ,性能低下をわずか1%に抑えられることがわかった.
- 2012-01-12
著者
関連論文
- 分岐方向の偏りを利用し破壊的競合を低減する分岐予測方式 (並列処理)
- 複数命令フェッチに対する並列分岐先予測/命令フェッチ機構(並列処理)
- VLIWマシンのための非数値計算応用向き広域命令スケジューリング手法
- サイクル時間評価による命令レベル並列処理マシンの性能比較
- パイプラインステージ統合とDVSの併用による消費電力の削減(省電力方式)
- VT-CMOSキャッシュの性能低下をアドレス予測を用いて低減する先行起動機構(キャッシュ機構)
- 頻出値を利用した物理レジスタの共有化手法(プロセッサアーキテクチャ)
- 遺伝的アルゴリズムを用いた運転整理ダイヤの作成
- エリート個体群に共通の性質をサブゴールとする自立的漸進進化
- 遺伝的アルゴリズムを用いたオンライン分岐予測機構の設計
- パイプラインストールを除去した遺伝的アルゴリズム専用ハードウェア
- 遺伝的アルゴリズムを用いた分岐予測機構設計
- 自律的にサブゴールを獲得する漸進進化による理論回路自動設計
- 遺伝的アルゴリズムを用いた分岐予測機構設計
- サブツリー評価値による遺伝的操作を用いた論理回路自動設計に関する研究
- 計算機アーキテクチャのトップカンファレンスを攻略しよう!
- マルチコアプロセッサにおけるメモリ依存予測及び同期機構
- リオーダ・バッファのハードウェア量削減
- リオーダ・バッファの仮想的な拡大による先行実行
- パイプラインストールを除去した遺伝的アルゴリズム専用ハードウェアの実現
- パイプラインストールを除去した遺伝的アルゴリズム専用ハードウェアの実現
- 遺伝的アルゴリズムの専用ハードウェア化
- クラスタ化スーパスカラ・プロセッサにおけるレジスタ・ファイルの階層化と選択的広域通信制御(マルチスレッド実行とプロセッサアーキテクチャ)
- 命令発行キューの遅延時間評価
- 物理レジスタ2段階解放方式の低消費電力化手法の評価
- 物理レジスタ2段階解放方式の低消費電力化手法の評価
- 値予測を用いた物理レジスタ2段階解放による命令先行実行方式の性能向上(プロセッサアーキテクチャ)
- 命令発行キューの深いパイプライン化(ARC-3:アーキテクチャ2,2008年並列/分散/協調処理に関する『佐賀』サマー・ワークショップ(SWoPP佐賀2008))
- 物理レジスタ2段階解放による命令先行実行方式の低消費電力化(ARC-10 : アーキテクチャIII,2007年並列/分散/協調処理に関する『旭川』サマー・ワークショップ(SWoPP旭川2007))
- 物理レジスタ2段階解放による命令先行実行方式の評価(ARC-10 : アーキテクチャIII,2007年並列/分散/協調処理に関する『旭川』サマー・ワークショップ(SWoPP旭川2007))
- スーパスカラ・プロセッサのための物理レジスタ2段階解放(ARC-1: プロセッサ・アーキテクチャ, 2005年並列/分散/協調処理に関する『武雄』サマー・ワークショップ(SWoPP武雄2005)-研究会・連続同時開催-)
- 単一チップ・マルチプロセッサSKYにおける投機的スレッド実行の性能評価(プロセッサ/コンパイラ, FRGAとその応用及び一般)
- 単一チップ・マルチプロセッサSKYにおける投機的スレッド実行の性能評価(プロセッサ/コンパイラ, FRGAとその応用及び一般)
- 単一チップ・マルチプロセッサSKYにおける投機的スレッド実行の性能評価(プロセッサ/コンパイラ, FRGAとその応用及び一般)
- SKYのマルチスレッド・モデルを実現したSMTプロセッサにおける物理レジスタの共有化手法(チップマルチプロセッサ)(デザインガイア2004-VLSI設計の新しい大地を考える研究会-)
- データ依存を考慮したプレスケジューリングを行う命令スケジューラ(プロセッサアーキテクチャ)
- 非数値計算プログラムにおけるスレッドレベル並列性の限界 : スレッド間メモリ曖昧性除去技術との関係(プロセッサアーキテクチャ)
- 単一チップ・マルチプロセッサSKYにおけるデータフローを考慮したスレッド分割技法(コンパイラ技術)
- 5. チップ・マルチプロセッサ(1.アーキテクチャ基盤技術, 新世代マイクロプロセッサアーキテクチャ(前編))
- パス選択によるソフトウェアパイプライニング
- 物理レジスタ2段階解放方式の低消費電力化手法の評価
- 物理レジスタ2段階解放方式の低消費電力化手法の評価
- パイプラインステージ統合によるプロセッサの消費エネルギーの削減(プロセッサアーキテクチャ)
- 低消費電力化のための可変パイプライン
- 低レイテンシ1対1結合マルチポート・インターリーブ・キャッシュの評価
- クロスバスイッチをなくしたマルチバンクキャッシュ
- 関数呼び出し時のレジスタの退避/復元に着目したメモリリネーミング手法
- ライン・バッファ・ヒット/ミス予測を利用した動的命令スケジューリング
- 値予測を利用した分岐予測機構
- 値予測を用いた分岐予測機構の計算機性能に与える影響
- 仮想リオーダ・バッファ方式における選択的先行実行による低消費電力化
- 発行キューのタグRAMのバンク化と正確なクリティカルパスの遅延時間評価
- コード再配置による命令キャッシュミスの削減
- コード再配置による命令キャッシュミスの削減
- コード再配置による命令キャッシュミスの削減
- オンチップマルチプロセッサアーキテクチャSKYの評価
- オンチップマルチプロセッサアーキテクチャSKYの評価
- オンチップマルチプロセッサアーキテクチャSKYの評価
- オンチップマルチプロセッサアーキテクチャSKYの評価
- オンチップマルチプロセッサアーキテクチャSKYの評価
- オンチップマルチプロセッサアーキテクチャSKYの評価
- 動的に破壊的競合を削減する分岐予測機構に関する検討
- 動的に破壊的競合を削減する分岐予測機構に関する検討
- 動的に破壊的競合を削減する分岐予測機構に関する検討
- 競合による予測精度低下を緩和する分岐予測機構 (機能論理設計, アーキテクチャ設計支援と一般)
- 直交性を考慮したハイブリッド分岐予測機構
- 最近の値の局所性を利用するロード値予測手法
- 最近の値の局所性に着目した共有化による物理レジスタ削減
- 単一チップマルチプロセッサ・アーキテクチャSKYにおけるメモリ同期機構の評価
- 単一チップマルチプロセッサ・アーキテクチャSKYにおけるスレッド分割技法の評価
- VT-CMOSを用いたデータキャッシュでの性能低下をアドレス予測を用いて低減する手法
- VT-CMOSを用いたデータキャッシュでの性能低下をアドレス予測を用いて低減する手法
- VT-CMOSを用いたデータキャッシュでの性能低下をアドレス予測を用いて低減する手法
- 非数値計算応用向けスレッド・レベル並列処理マルチプロセッサ・アーキテクチャSKY(マルチメディアネットワークシステム)
- 両パス実行の性能評価と実行判定精度の改善
- 制御等価を利用したスレッド分割技法
- 制御依存解析と複数命令流実行を導入した投機的実行機構の提案と予備的評価
- sgshare分岐予測機構における選択機構が予測性能に与える影響の評価
- 動的タイムボローイングを可能にするクロッキング方式の予備実験(半導体回路,2011年並列/分散/協調処理に関する『鹿児島』サマー・ワークショップ(SWoPP鹿児島2011))
- プラットフォーム部分認証(アーキテクチャ,2011年並列/分散/協調処理に関する『鹿児島』サマー・ワークショップ(SWoPP鹿児島2011))
- 動的な資源のリサイジングを組み合わせたデュアルターボブースト
- データ・キャッシュ・ミスの周期的発生を利用したヒット/ミス予測器
- 仮想リオーダ・バッファ方式におけるロード/ストア・キューの単純化(プロセッサ・アーキテクチャ,集積回路とアーキテクチャの協創〜ノーマリオフコンピューティングによる低消費電力化への挑戦〜)
- L1データ・キャッシュ・ミスに着目した命令発行キューの動的リサイジング(プロセッサ・アーキテクチャ,集積回路とアーキテクチャの協創〜ノーマリオフコンピューティングによる低消費電力化への挑戦〜)
- 動的タイム・ボローイングを可能にするクロッキング方式
- タイミング・フォールト耐性を持つOut-of-Orderプロセッサ
- 非数値計算プログラムにおけるスレッド・レベル並列性の限界
- 仮想リオーダ・バッファ方式におけるロード/ストア・キューの単純化
- L1データ・キャッシュ・ミスに着目した命令発行キューの動的リサイジング
- 2レベル表方式による分岐先バッファ(並列処理)
- 分岐先アドレスの性質を利用した2レベル表による分岐先バッファの容量削減
- 競合による予測精度低下を緩和する分岐予測機構 (機能論理設計, アーキテクチャ設計支援と一般)