布隆過濾器的推導

原創

spring man

2020-06-15 16:28

bloom filter

intro

布隆過濾器是一種很有意思的數據結構，它的用途是檢測某個元素是否在一個集合中。

首先，有一個數組，它的元素全部是0，然後共有m個坑：

我現在有一個集合 $S=\left\{ x,y,z \right\}$ ，對於每一個元素，通過3個hash函數，將其打到數組上，打中的位置設置爲1。

比如 $x$ ，三次hash後，數組上就會有3個位置變爲1(藍色線條)。

至於hash函數，你可以認爲它對 $x$ 做了處理，最後模上數組的長度得到一個下標。

注意，元素hash後可能打中同一個坑，這點不必驚奇。當m的值（也就是數組的長度)越來越大，這種情況的概率就會越來越小。

現在我來了一個 $w$ ，我要問： $w$ 在不在 $S$ 中？

將 $w$ 也三次hash一下：

如果有打中0的情形，那麼，它肯定不在 $S$ 中。
如果打中的全部是1，那麼它很有可能在 $S$ 中，也就是說，可以判定它在 $S$ 中，並帶有一定的錯誤概率。

more general

我們的根本目的是減少錯誤概率。

現在考慮一般情況。

數組的長度爲 $m$
集合爲 $S=\left\{ x_1,x_2,\dots,x_n \right\}$ ，有 $n$ 個元素
hash函數有 $k$ 個： $h_1,h_2,\dots,h_k$ ， $0 \le h_i(x_j)\lt m(1 \le i \le k, 1 \le j \le n)$ ,換句話說，每個元素 $x_i$ 的每次hash的下標都落在數組內
hash函數產生的下標是等概率均勻分佈的，不是說全部擠在前面或者某一個地方

好，現在我們考慮一個元素(比如 $x_1$ )的插入(佔坑)。

經過一次hash後，某個坑爲1的概率爲：

$\frac{1}{m}$

某個坑爲0的概率是：

$1-\frac{1}{m}$

$k$ 個hash函數過後，某個坑依舊爲0的概率是：

$(1-\frac{1}{m})^k$

因爲 $\lim\limits_{m\to+\infty}(1-\frac{1}{m})^{-m}=e$ ，所以

$\lim\limits_{m\to\infty}(1-\frac{1}{m})^k=\lim\limits_{m\to\infty}[(1-\frac{1}{m})^{-m}]^{-\frac{k}m{}}=e^{-\frac{k}{m}}$

我們會假設數組的長度 $m$ 無窮大，所以上面的式子是成立的。

完成了一個元素的插入後，現在我插入 $n$ 個元素。

$n$ 個元素插入後，某個坑依舊爲0的概率是：

$e^{-\frac{nk}{m}}$

於是某個坑爲1的概率是：

$1-e^{-\frac{nk}{m}}$

現在我來了一個元素 $y$ ， $y$ 並不在 $S$ 中。

$y$ 經過 $k$ 個hash函數後，全部打到了標記爲1的坑，這個概率是：

$(1-e^{-\frac{nk}{m}})^k$

好了，我們找到了最終的函數。

目標：使 $f=(1-e^{-\frac{nk}{m}})^k$

最小。

$f=e^{\ln(1-e^{-\frac{nk}{m}})^k}=e^{k\ln(1-e^{-\frac{nk}{m}})}$

令
$g=k\ln(1-e^{-\frac{nk}{m}})$

問題轉化爲求 $g$ 的最小值。

$\frac{\partial g}{\partial k}=\ln(1-e^{-\frac{nk}{m}})+(\frac{1}{1-e^{-\frac{nk}{m}}})(-e^{-\frac{nk}{m}})(-\frac{n}{m})(k)$

令 $\frac{\partial g}{\partial k}=0$

同時，令

$e^{-\frac{nk}{m}}=p$

於是

$\frac{n}{m}=\frac{\ln p}{-k}$

那麼

$\ln(1-p)+(\frac{1}{1-p})(p)(\frac{\ln p}{-k})(k)=\ln(1-p)-\frac{p}{1-p} \ln p=0$

整理一下：

$(1-p)\ln (1-p)=p \ln p$

得到

$p=\frac{1}{2}$

於是

$k=\frac{m}{n} \ln 2$

$k,m,n$ 滿足 $k=\frac{m}{n} \ln 2$ 能夠使得 $f$ 最小。

也就是說，如果數組長度比上元素個數爲8的話( $\frac{m}{n}=8$ )，那麼hash函數的個數最好有 $8\ln 2 \approx5.45$ 個(你可以取個整)。

這是一個令人愉快的結果。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

布隆過濾器的推導

bloom filter

intro

more general

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

netty整合protocol buffer

mysql行表鎖

紅黑樹的介紹（一）

netty發送心跳測試

mysql的事務及事務的隔離級別

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結