0.前言

本文主要介紹分佈式GK Summay算法，考慮分佈式流式數據庫場景，博客內容來源主要是原始論文與Emory大學的流式數據庫的課程內容，本文僅提取出關鍵內容加入筆者的個人理解，有錯誤還望諒解與告知。

1.背景

現在考慮分佈式流式數據庫，流式數據來源如下圖：

上圖中每個Processing Node需要統計對應的數據，然後將統計數據merge生成可查詢的Summary。上篇博客我們知道對於數據流如何構建GK Summary來支持

ϵ−approximate ϕ−quantile 分位點查詢，但是由於數據流來源分佈不同，而查詢應該基於全局數據，因此需要將所有GK Summary合併merge生成最終全局的Summary查詢結構。本文就來探討分佈式GK summary的merge操作以及Prune操作。後續會介紹到Prune操作，不同於上篇GK Summary的delete與compress操作，該操作直接對Summary進行刪減，會犧牲誤差邊界，merge與prune操作是後續A fast algorithm的基礎操作。

2.分佈式GK Summary算法

2.1 Merge操作

考慮2個summary merge情況，已經按照summary tuple內部v 大小排序：

Q' = {(x 1, r m i n (x 1), r m a x (x 1)), (x 2, r m i n (x 2), r m a x (x 2)), . . ., (x n, r m i n (x n), r m a x (x n))} Q ″ = {(y 1, r m i n (y 1), r m a x (y 1)), (y 2, r m i n (y 2), r m a x (y 2)), . . ., (y m, r m i n (y m), r m a x (y m))}

注，上述summary基於

(v,rmin,rmax) 形式，之前博客已經說明，該形式等價於

(v,g,Δ) ，後者主要方便新增數據的summary更新，但是前者可讀性更高，故本文說明基於前者形式。

如何merge生成最終Q ：

{(z 1, r m i n (z 1), r m a x (z 1)), (z 2, r m i n (z 2), r m a x (z 2)), . . ., (z n, r m i n (z n), r m a x (z s))}

Merge方案：首先，考慮s=n+m ，關鍵是分配每個Q 中summary的zi 、rminQ(zn) 以及rmaxQ(zn) 。
不失一般性，假設分配Q′ 中的xr 到Q 中zi ，滿足：

max y s \in Q ″ < x r min y t \in Q ″ > x r

此時，可以分配

rminQ(zn) 與

rmaxQ(zn) ：

r m i n Q (z i) = {r m i n Q' (x r) r m i n Q' (x r) + r m i n Q ″ (y s), 不 存 在 y s, 其 他

r m a x Q (z i) = {r m a x Q' (x r) + r m a x Q ″ (y s) r m a x Q' (x r) + r m a x Q ″ (y t) - 1, 不 存 在 y t, 其 他

分配完

Q′ ，同樣地，對

Q″ 執行一次，這樣

Q 就補充到

s=n+m ，這就是一種Merge方案。

證明上述方案的可行性，已知Q′ 、Q″ 滿足誤差約束條件：

max i \in Q' (g i + Δ i) \leq 2 ϵ N

max i \in Q ″ (g i + Δ i) \leq 2 ϵ M

現在轉化爲如何證明：

maxi∈Q(gi+Δi)≤2ϵ(N+M) 。
證明之前，先說明merge的一般性質：

Q' : max i \in Q' (g i + Δ i) \leq 2 ϵ' N Q ″ : max i \in Q ″ (g i + Δ i) \leq 2 ϵ ″ M \Rightarrow m e r g e (Q', Q ″) : max i \in Q (g i + Δ i) \leq 2 m a x (ϵ', ϵ ″) (N + M)

證明這條性質，間接的也就證明上述merge方案的可行性。下面分2種情況分別證明：

1）在Q 中相連zi 與zi+1 來源於同一個Q′ 或者Q″ ，不失一般性，假設都來源於Q′ ，分別對應於xr 於xr+1 。根據rmin(zn) 分配定義，可得rminQ(zi)≥rminQ′(xr) ，同樣地，rmaxQ(zi+1)≤rmaxQ′(xr+1)+rmaxQ″(yt)−1 ，位置關係如下圖所示：

所以：

r m a x Q (z i + 1) - r m i n Q (z i) \leq [r m a x Q' (x r + 1) + r m a x Q ″ (y t) - 1] - r m i n Q' (x r) = [r' m a x Q (x r + 1) - r' m i n Q (x r)] + [r ″ m a x Q (y t) - 1] \leq [r' m a x Q (x r + 1) - r' m i n Q (x r)] + [r ″ m a x Q (y t) - r ″ m i n Q (y t - 1)] (r ″ m i n Q (y t - 1) \geq 1) \leq 2 ϵ' N + 2 ϵ ″ M = 2 m a x (ϵ', ϵ ″) (N + M)

2）在Q 中相連zi 與zi+1 來源不同，不失一般性，假設zi 源於Q′ ,zi+1 源於Q″ ，分別對應於xr 、yt 。根據rmin(zn) 分配定義，可得rminQ(zi)≥rminQ′(xr) ，同樣地，rmaxQ(zi+1)≤rmaxQ″(yt)+rmaxQ′(xr+1)−1 ，位置關係如下圖所示：

所以：

r m a x Q (z i + 1) - r m i n Q (z i) \leq [r m a x Q ″ (y t) + r m a x Q' (x r + 1) - 1] - r m i n Q' (x r) = [r' m a x Q (x r + 1) - r' m i n Q (x r)] + [r ″ m a x Q (y t) - 1] \leq [r' m a x Q (x r + 1) - r' m i n Q (x r)] + [r ″ m a x Q (y t) - r ″ m i n Q (y t - 1)] (r ″ m i n Q (y t - 1) \geq 1) \leq 2 ϵ' N + 2 ϵ ″ M \leq 2 m a x (ϵ', ϵ ″) (N + M)

得證。

最後，結論擴展：對於quantile summary 集合：Q1,Q2,...,Qk , 滿足誤差爲ϵ1,ϵ2,...,ϵk 約束，Merge(Q1,Q2,...,Qk) 滿足誤差爲：ϵ=max1..k(ϵi)

2.2 Prune操作

Merge操作是將對應summary 合併到一塊，生成summary 的結果數是增多的，如何減少Merge的結果數呢？即定義Prune操作，但減少並不是沒有代價的，需要增大誤差邊界。下面定義Prune操作：

假設將S 結果數減少到B ，Prune操作爲Prune(S,B) ，其中|S| 代表QSummary S 對應的數據集大大小。

Q S u m m a r y P r u n e (Q S u m m a r y S, i n t B) {Q S u m m a r y R = ϕ; f o r (i = 1, (1 / B) \times | S |, (2 / B) \times | S |, (3 / B) \times | S |, . . ., | S |) {v = Q u e r y (S, i); / / G K S u m m a r y 查 詢 ， 前 文 已 經 講 過 r m i n (v) = r m i n (v) i n s u m m a r y Q; r m a x (v) = r m a x (v) i n s u m m a r y Q; R = R \cup (v, r m i n (v), r m a x (v);} r e t u r n R;}

先說結論，Q′ 爲ϵ−approximate quantile summary ，則:

Q = P r u n e (Q, B) : (ϵ + 1 / (2 B)) - a p p r o x i m a t e q u a n t i l e s u m m a r y

證明：假設

qi 和

qi+1 是

Prune(Q′,B) 中的兩個相連summary，位置分佈如下圖所示：

其中

vk 爲

qi 在

Q′ 的排序,

vm 爲

qi+1 在

Q′ 的排序，因此，

m−k≤(i/B)×|S| 。

r m a x (q i + 1) - r m i n (q i) = r m a x (v m) - r m i n (v k) = r m a x (v m) + + r m i n (v m - 1) - r m i n (v m - 1) + r m i n (v m - 2) - r m i n (v m - 2) + . . . . + r m i n (v k + 1) - r m i n (v k + 1) - r m i n (v k)

r m a x (q i + 1) - r m i n (q i) = r m a x (v m) - r m i n (v m - 1) + r m i n (v m - 1) - r m i n (v m - 2) + r m i n (v m - 2) - r m i n (v m - 3) + . . . . + r m i n (v k + 2) - r m i n (v k + 1) + r m i n (v k + 1) - r m i n (v k)

r m a x (q i + 1) - r m i n (q i) = r m a x (v m) - r m i n (v m - 1) + g m - 1 + g m - 2 + . . . + g k + 1

之前博文說明g 表示對應summary 覆蓋數據量，因此，

g m - 1 + g m - 2 + . . . + g k + 1 \leq (1 / B) \times | S |

結合

rmax(vm)−rmin(vm−1)≤2ϵ|S| ，可得：

r m a x (q i + 1) - r m i n (q i) \leq 2 (ϵ + 1 / (2 B)) \times | S |

得證。

參考文獻

Emory大學Stream DB System課程關於分佈式GK Summary算法材料：
http://www.mathcs.emory.edu/~cheung/Courses/584-StreamDB/Syllabus/08-Quantile/Greenwald-D.html

分佈式GK Summary算法

0.前言

1.背景

2.分佈式GK Summary算法

2.1 Merge操作

2.2 Prune操作

參考文獻

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

Dokcer部署Kafka集羣

【Linux命令學習】lsof查看打開的文件

分佈式GK Summary算法

XGBoost解析系列-原理

GK Summay算法（ϵ−approximate ϕ−quantile）

XGBoost解析系列--源碼主流程

Fast Algorithm for GK Summary算法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結