Extreme Skew Handling in Right-Deep Multi-Joins
スポンサーリンク
概要
- 論文の詳細を見る
Execution of relational operations on a shared nothing system is susceptible to various forms of skew due to the partitioning of tuples amongst the processing nodes. This skew reduces the overall efficiency of the multi-join operation. In this paper, we present an algorithm for dynamically handling skew in a right-deep hash multi-join. In the right-deep hash multi-join, a right-deep query execution plan is used to schedule the order in which the pair-wise hash joins should be performed. The right-deep query allows the multi-join to proceed in a pipelined manner. When this pipeline is partitioned amongst the processors, skew affects the flow of tuples through the processors, allowing some processors to finish reading all of the tuples on their local disks much faster than others. Once all of the disk tuples have been read, the processor will become periodically idle while it waits for probe tuples to arrive from another processor. As the skew in the disk read completion times increases, processor utilization efficiency decreases which leads to a longer response time for the multi-join. Our algorithm makes use of a control processor, called the foreman, to make decisions about how hash lines should be migrated in order to balance the disk completion times, where a hash line consists of the set of build relation tuples of a particular pair-wise join which map to the same hash entry in the hash table. A hash line is a natural unit of migration, since it assures that all build relation tuples with the same attribute value are located on the same processor. Load balancing occurs in two phases, the first phase balances the pipeline flow for each processor, and the second phase balances the disk completion times.
- 一般社団法人情報処理学会の論文
- 1996-09-04
著者
関連論文
- オブジェクト指向技術とその応用論文特集の企画にあたって
- 6R-5 An Experimental Study on Basic Performance of Flash SSDs with Micro Benchmarks and Real Access Traces
- 6K-8 Jumbo : a data intensive distributed computation platform : design overview and preliminary experiment
- 5K-4 A study on Historical Web Graph Extraction
- Performance Evaluation of KD-Join Algorithm
- Implementation Technique of Join Operation on KD-Tree Indexed Relations
- 3J-7 Multimedia Object Placement in Transcoding-enabled Wide-area Storage Systems
- D-002 中規模IP-SANでの高多重度I/O処理の解析と性能向上手法(D分野:データベース)
- 2J-4 Efficient General Dominant Relationship Analysis based on Partial Order Models
- Dynamic Load Balancing in Right-Deep Pipelined Joins
- Extreme Skew Handling in Right-Deep Multi-Joins
- 1J-6 EcoR : An Economic Incentive model for facilitating storage of materialized query results in Mobile-P2P environments
- 6J-3 User-Assisted Similarity Estimation for Searching Related Web Pages
- ITをイネーブラとするプラットフォーマ学会を目指す:若手やんちゃ枠も作りたい -会長就任にあたって-
- マイクロブログにおける対話ネットワークと投稿内容を併用したユーザ推薦に関する一考察
- マイクロブログにおける対話ネットワークと投稿内容を併用したユーザ推薦に関する一考察
- SSDを利用したリレーショナルデータベースにおける大規模意思決定支援クエリ処理性能の特性
- SSDを利用したリレーショナルデータベースにおける大規模意思決定支援クエリ処理性能の特性
- マイクロブログを用いた鉄道の運行トラブル状況抽出に関する一検討
- マイクロブログを用いた鉄道の運行トラブル状況抽出に関する一検討
- 分散非共有計算機上におけるBtreeインデックスに対するヒート分散手法のシミュレーションによる評価
- 電力を考慮したアプリケーション構築のための計算機システムの提案
- テキストデータの未来関連情報における予定変更情報の獲得に関する研究
- アウトオブオーダ型データベースエンジンOoODEの試作実装と小規模実験環境におけるソフトウェア実行挙動の観測
- マイクロブログを用いた鉄道の運行トラブル状況抽出に関する一検討 (データ工学)
- マイクロブログにおける対話ネットワークと投稿内容を併用したユーザ推薦に関する一考察 (データ工学)
- 時々刻々と成長するグラフのための直径モニタリング
- マイクロブログからの鉄道の運行トラブル発生検出および継続状況の抽出 (特集 「機械学習と自然言語処理への応用」および一般)
- 語彙正規化との同時処理による高精度な形態素解析 (特集 「人工知能とデータサイエンス」および一般)
- 形態素解析における高速な単語ラティス生成
- SSDを利用したリレーショナルデータベースにおける大規模意思決定支i援クエリ処理性能の特性(ストレージ,ビッグデータを対象とした管理・情報検索・知識獲得及び一般)
- マイクロブログを用いた鉄道の運行トラブル状況抽出に関する一検討(twitter・ソーシャルネットワーク,ビッグデータを対象とした管理・情報検索・知識獲得及び一般)
- 未知語を考慮した形態素解析のための単語ラティスの効率的な生成方法
- マイクロブログにおける対話ネットワークと投稿内容を併用したユーザ推薦に関する一考察(twitter・ソーシャルネットワーク,ビッグデータを対象とした管理・情報検索・知識獲得及び一般)