布隆过滤器的推导

原創

spring man

2020-06-15 16:28

bloom filter

intro

布隆过滤器是一种很有意思的数据结构，它的用途是检测某个元素是否在一个集合中。

首先，有一个数组，它的元素全部是0，然后共有m个坑：

我现在有一个集合 $S=\left\{ x,y,z \right\}$ ，对于每一个元素，通过3个hash函数，将其打到数组上，打中的位置设置为1。

比如 $x$ ，三次hash后，数组上就会有3个位置变为1(蓝色线条)。

至于hash函数，你可以认为它对 $x$ 做了处理，最后模上数组的长度得到一个下标。

注意，元素hash后可能打中同一个坑，这点不必惊奇。当m的值（也就是数组的长度)越来越大，这种情况的概率就会越来越小。

现在我来了一个 $w$ ，我要问： $w$ 在不在 $S$ 中？

将 $w$ 也三次hash一下：

如果有打中0的情形，那么，它肯定不在 $S$ 中。
如果打中的全部是1，那么它很有可能在 $S$ 中，也就是说，可以判定它在 $S$ 中，并带有一定的错误概率。

more general

我们的根本目的是减少错误概率。

现在考虑一般情况。

数组的长度为 $m$
集合为 $S=\left\{ x_1,x_2,\dots,x_n \right\}$ ，有 $n$ 个元素
hash函数有 $k$ 个： $h_1,h_2,\dots,h_k$ ， $0 \le h_i(x_j)\lt m(1 \le i \le k, 1 \le j \le n)$ ,换句话说，每个元素 $x_i$ 的每次hash的下标都落在数组内
hash函数产生的下标是等概率均匀分布的，不是说全部挤在前面或者某一个地方

好，现在我们考虑一个元素(比如 $x_1$ )的插入(占坑)。

经过一次hash后，某个坑为1的概率为：

$\frac{1}{m}$

某个坑为0的概率是：

$1-\frac{1}{m}$

$k$ 个hash函数过后，某个坑依旧为0的概率是：

$(1-\frac{1}{m})^k$

因为 $\lim\limits_{m\to+\infty}(1-\frac{1}{m})^{-m}=e$ ，所以

$\lim\limits_{m\to\infty}(1-\frac{1}{m})^k=\lim\limits_{m\to\infty}[(1-\frac{1}{m})^{-m}]^{-\frac{k}m{}}=e^{-\frac{k}{m}}$

我们会假设数组的长度 $m$ 无穷大，所以上面的式子是成立的。

完成了一个元素的插入后，现在我插入 $n$ 个元素。

$n$ 个元素插入后，某个坑依旧为0的概率是：

$e^{-\frac{nk}{m}}$

于是某个坑为1的概率是：

$1-e^{-\frac{nk}{m}}$

现在我来了一个元素 $y$ ， $y$ 并不在 $S$ 中。

$y$ 经过 $k$ 个hash函数后，全部打到了标记为1的坑，这个概率是：

$(1-e^{-\frac{nk}{m}})^k$

好了，我们找到了最终的函数。

目标：使 $f=(1-e^{-\frac{nk}{m}})^k$

最小。

$f=e^{\ln(1-e^{-\frac{nk}{m}})^k}=e^{k\ln(1-e^{-\frac{nk}{m}})}$

令
$g=k\ln(1-e^{-\frac{nk}{m}})$

问题转化为求 $g$ 的最小值。

$\frac{\partial g}{\partial k}=\ln(1-e^{-\frac{nk}{m}})+(\frac{1}{1-e^{-\frac{nk}{m}}})(-e^{-\frac{nk}{m}})(-\frac{n}{m})(k)$

令 $\frac{\partial g}{\partial k}=0$

同时，令

$e^{-\frac{nk}{m}}=p$

于是

$\frac{n}{m}=\frac{\ln p}{-k}$

那么

$\ln(1-p)+(\frac{1}{1-p})(p)(\frac{\ln p}{-k})(k)=\ln(1-p)-\frac{p}{1-p} \ln p=0$

整理一下：

$(1-p)\ln (1-p)=p \ln p$

得到

$p=\frac{1}{2}$

于是

$k=\frac{m}{n} \ln 2$

$k,m,n$ 满足 $k=\frac{m}{n} \ln 2$ 能够使得 $f$ 最小。

也就是说，如果数组长度比上元素个数为8的话( $\frac{m}{n}=8$ )，那么hash函数的个数最好有 $8\ln 2 \approx5.45$ 个(你可以取个整)。

这是一个令人愉快的结果。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

布隆过滤器的推导

bloom filter

intro

more general

工作中用到的脚本合集

通过f-string编写简洁高效的Python格式化输出代码

24-5-18 X

netty整合protocol buffer

mysql行表鎖

紅黑樹的介紹（一）

netty發送心跳測試

mysql的事務及事務的隔離級別

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結