0.前言

本文主要介绍分布式GK Summay算法，考虑分布式流式数据库场景，博客内容来源主要是原始论文与Emory大学的流式数据库的课程内容，本文仅提取出关键内容加入笔者的个人理解，有错误还望谅解与告知。

1.背景

现在考虑分布式流式数据库，流式数据来源如下图：

上图中每个Processing Node需要统计对应的数据，然后将统计数据merge生成可查询的Summary。上篇博客我们知道对于数据流如何构建GK Summary来支持

ϵ−approximate ϕ−quantile 分位点查询，但是由于数据流来源分布不同，而查询应该基于全局数据，因此需要将所有GK Summary合并merge生成最终全局的Summary查询结构。本文就来探讨分布式GK summary的merge操作以及Prune操作。后续会介绍到Prune操作，不同于上篇GK Summary的delete与compress操作，该操作直接对Summary进行删减，会牺牲误差边界，merge与prune操作是后续A fast algorithm的基础操作。

2.分布式GK Summary算法

2.1 Merge操作

考虑2个summary merge情况，已经按照summary tuple内部v 大小排序：

Q' = {(x 1, r m i n (x 1), r m a x (x 1)), (x 2, r m i n (x 2), r m a x (x 2)), . . ., (x n, r m i n (x n), r m a x (x n))} Q ″ = {(y 1, r m i n (y 1), r m a x (y 1)), (y 2, r m i n (y 2), r m a x (y 2)), . . ., (y m, r m i n (y m), r m a x (y m))}

注，上述summary基于

(v,rmin,rmax) 形式，之前博客已经说明，该形式等价于

(v,g,Δ) ，后者主要方便新增数据的summary更新，但是前者可读性更高，故本文说明基于前者形式。

如何merge生成最终Q ：

{(z 1, r m i n (z 1), r m a x (z 1)), (z 2, r m i n (z 2), r m a x (z 2)), . . ., (z n, r m i n (z n), r m a x (z s))}

Merge方案：首先，考虑s=n+m ，关键是分配每个Q 中summary的zi 、rminQ(zn) 以及rmaxQ(zn) 。
不失一般性，假设分配Q′ 中的xr 到Q 中zi ，满足：

max y s \in Q ″ < x r min y t \in Q ″ > x r

此时，可以分配

rminQ(zn) 与

rmaxQ(zn) ：

r m i n Q (z i) = {r m i n Q' (x r) r m i n Q' (x r) + r m i n Q ″ (y s), 不 存 在 y s, 其 他

r m a x Q (z i) = {r m a x Q' (x r) + r m a x Q ″ (y s) r m a x Q' (x r) + r m a x Q ″ (y t) - 1, 不 存 在 y t, 其 他

分配完

Q′ ，同样地，对

Q″ 执行一次，这样

Q 就补充到

s=n+m ，这就是一种Merge方案。

证明上述方案的可行性，已知Q′ 、Q″ 满足误差约束条件：

max i \in Q' (g i + Δ i) \leq 2 ϵ N

max i \in Q ″ (g i + Δ i) \leq 2 ϵ M

现在转化为如何证明：

maxi∈Q(gi+Δi)≤2ϵ(N+M) 。
证明之前，先说明merge的一般性质：

Q' : max i \in Q' (g i + Δ i) \leq 2 ϵ' N Q ″ : max i \in Q ″ (g i + Δ i) \leq 2 ϵ ″ M \Rightarrow m e r g e (Q', Q ″) : max i \in Q (g i + Δ i) \leq 2 m a x (ϵ', ϵ ″) (N + M)

证明这条性质，间接的也就证明上述merge方案的可行性。下面分2种情况分别证明：

1）在Q 中相连zi 与zi+1 来源于同一个Q′ 或者Q″ ，不失一般性，假设都来源于Q′ ，分别对应于xr 于xr+1 。根据rmin(zn) 分配定义，可得rminQ(zi)≥rminQ′(xr) ，同样地，rmaxQ(zi+1)≤rmaxQ′(xr+1)+rmaxQ″(yt)−1 ，位置关系如下图所示：

所以：

r m a x Q (z i + 1) - r m i n Q (z i) \leq [r m a x Q' (x r + 1) + r m a x Q ″ (y t) - 1] - r m i n Q' (x r) = [r' m a x Q (x r + 1) - r' m i n Q (x r)] + [r ″ m a x Q (y t) - 1] \leq [r' m a x Q (x r + 1) - r' m i n Q (x r)] + [r ″ m a x Q (y t) - r ″ m i n Q (y t - 1)] (r ″ m i n Q (y t - 1) \geq 1) \leq 2 ϵ' N + 2 ϵ ″ M = 2 m a x (ϵ', ϵ ″) (N + M)

2）在Q 中相连zi 与zi+1 来源不同，不失一般性，假设zi 源于Q′ ,zi+1 源于Q″ ，分别对应于xr 、yt 。根据rmin(zn) 分配定义，可得rminQ(zi)≥rminQ′(xr) ，同样地，rmaxQ(zi+1)≤rmaxQ″(yt)+rmaxQ′(xr+1)−1 ，位置关系如下图所示：

所以：

r m a x Q (z i + 1) - r m i n Q (z i) \leq [r m a x Q ″ (y t) + r m a x Q' (x r + 1) - 1] - r m i n Q' (x r) = [r' m a x Q (x r + 1) - r' m i n Q (x r)] + [r ″ m a x Q (y t) - 1] \leq [r' m a x Q (x r + 1) - r' m i n Q (x r)] + [r ″ m a x Q (y t) - r ″ m i n Q (y t - 1)] (r ″ m i n Q (y t - 1) \geq 1) \leq 2 ϵ' N + 2 ϵ ″ M \leq 2 m a x (ϵ', ϵ ″) (N + M)

得证。

最后，结论扩展：对于quantile summary 集合：Q1,Q2,...,Qk , 满足误差为ϵ1,ϵ2,...,ϵk 约束，Merge(Q1,Q2,...,Qk) 满足误差为：ϵ=max1..k(ϵi)

2.2 Prune操作

Merge操作是将对应summary 合并到一块，生成summary 的结果数是增多的，如何减少Merge的结果数呢？即定义Prune操作，但减少并不是没有代价的，需要增大误差边界。下面定义Prune操作：

假设将S 结果数减少到B ，Prune操作为Prune(S,B) ，其中|S| 代表QSummary S 对应的数据集大大小。

Q S u m m a r y P r u n e (Q S u m m a r y S, i n t B) {Q S u m m a r y R = ϕ; f o r (i = 1, (1 / B) \times | S |, (2 / B) \times | S |, (3 / B) \times | S |, . . ., | S |) {v = Q u e r y (S, i); / / G K S u m m a r y 查 询 ， 前 文 已 经 讲 过 r m i n (v) = r m i n (v) i n s u m m a r y Q; r m a x (v) = r m a x (v) i n s u m m a r y Q; R = R \cup (v, r m i n (v), r m a x (v);} r e t u r n R;}

先说结论，Q′ 为ϵ−approximate quantile summary ，则:

Q = P r u n e (Q, B) : (ϵ + 1 / (2 B)) - a p p r o x i m a t e q u a n t i l e s u m m a r y

证明：假设

qi 和

qi+1 是

Prune(Q′,B) 中的两个相连summary，位置分布如下图所示：

其中

vk 为

qi 在

Q′ 的排序,

vm 为

qi+1 在

Q′ 的排序，因此，

m−k≤(i/B)×|S| 。

r m a x (q i + 1) - r m i n (q i) = r m a x (v m) - r m i n (v k) = r m a x (v m) + + r m i n (v m - 1) - r m i n (v m - 1) + r m i n (v m - 2) - r m i n (v m - 2) + . . . . + r m i n (v k + 1) - r m i n (v k + 1) - r m i n (v k)

r m a x (q i + 1) - r m i n (q i) = r m a x (v m) - r m i n (v m - 1) + r m i n (v m - 1) - r m i n (v m - 2) + r m i n (v m - 2) - r m i n (v m - 3) + . . . . + r m i n (v k + 2) - r m i n (v k + 1) + r m i n (v k + 1) - r m i n (v k)

r m a x (q i + 1) - r m i n (q i) = r m a x (v m) - r m i n (v m - 1) + g m - 1 + g m - 2 + . . . + g k + 1

之前博文说明g 表示对应summary 覆盖数据量，因此，

g m - 1 + g m - 2 + . . . + g k + 1 \leq (1 / B) \times | S |

结合

rmax(vm)−rmin(vm−1)≤2ϵ|S| ，可得：

r m a x (q i + 1) - r m i n (q i) \leq 2 (ϵ + 1 / (2 B)) \times | S |

得证。

参考文献

Emory大学Stream DB System课程关于分布式GK Summary算法材料：
http://www.mathcs.emory.edu/~cheung/Courses/584-StreamDB/Syllabus/08-Quantile/Greenwald-D.html

分布式GK Summary算法

0.前言

1.背景

2.分布式GK Summary算法

2.1 Merge操作

2.2 Prune操作

参考文献

分佈式GK Summary算法

XGBoost解析系列-原理

GK Summay算法（ϵ−approximate ϕ−quantile）

XGBoost解析系列--源碼主流程

Fast Algorithm for GK Summary算法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結