BloomFilter的基本概念和實現原理

一、基本概念：

布隆過濾器（Bloom Filter）是由布隆（Burton Howard Bloom）在1970年提出的。它實際上是由一個很長的二進制向量（位向量）和一系列隨機映射函數組成，布隆過濾器可以用於檢索一個元素是否在一個集合中。它的優點是空間效率和查詢時間都遠遠超過一般的算法，缺點是有一定的誤識別率（假正例False positives，即Bloom Filter報告某一元素存在於某集合中，但是實際上該元素並不在集合中）和刪除困難，但是沒有識別錯誤的情形（即假反例False negatives，如果某個元素確實沒有在該集合中，那麼Bloom Filter 是不會報告該元素存在於集合中的，所以不會漏報）。因此，Bloom Filter不適合那些“零錯誤”的應用場合。而在能容忍低錯誤率的應用場合下，Bloom Filter通過極少的錯誤換取了存儲空間的極大節省。

如果想判斷一個元素是不是在一個集合裏，一般想到的是將所有元素保存起來，然後通過比較確定。鏈表，樹等等數據結構都是這種思路. 但是隨着集合中元素的增加，我們需要的存儲空間越來越大，檢索速度也越來越慢。不過世界上還有一種叫作散列表（又叫哈希表，Hash table）的數據結構。它可以通過一個Hash函數將一個元素映射成一個位陣列（Bit Array）中的一個點。這樣一來，我們只要看看這個點是不是 1 就知道可以集合中有沒有它了。這就是布隆過濾器的基本思想。

Hash面臨的問題就是衝突。假設 Hash 函數是隨機的，如果我們的位陣列長度爲 m 個點，那麼如果我們想將衝突率降低到例如 1%, 這個散列表就只能容納 m/100 個元素。顯然這就不叫空間有效了（Space-efficient）。解決方法也簡單，就是使用多個 Hash函數，如果它們有一個說元素不在集合中，那肯定就不在(必須對應位置上都是1)。如果它們都說在，有很小的可能性該元素不在。

BloomFilter的幾個重要參數：

插入集合的元素個數n，BloomFilter位數組的長度m，hash函數個數k

優點

相比於其它的數據結構，布隆過濾器在空間和時間方面都有巨大的優勢。布隆過濾器存儲空間和插入/查詢時間都是常數，取決於hash函數的個數k(O(k))。另外, Hash 函數相互之間沒有關係，方便並行實現。布隆過濾器不需要存儲元素本身，在某些對保密要求非常嚴格的場合有優勢。

布隆過濾器可以表示全集，其它任何數據結構都不能；

k 和 m 相同，使用同一組 Hash 函數的兩個布隆過濾器的交併差運算可以使用位操作進行。

缺點

布隆過濾器的缺點和優點一樣明顯。誤算率（False Positive）是其中之一。隨着存入的元素數量增加，誤算率隨之增加。但是如果元素數量太少，則使用散列表足矣。

另外，一般情況下不能從布隆過濾器中刪除元素. 我們很容易想到把位列陣變成整數數組，每插入一個元素相應的計數器加1, 這樣刪除元素時將計數器減掉就可以了。然而要保證安全的刪除元素並非如此簡單。首先我們必須保證刪除的元素的確在布隆過濾器裏面. 這一點單憑這個過濾器是無法保證的。另外計數器迴繞也會造成問題。

二、算法描述
一個空的 bloom filter是一個有m bits的bit array，每一個bit位都初始化爲0。並且定義有k個不同的hash函數，每個都隨機將元素hash到m個不同位置中的一個。在下面的介紹中n爲元素數，m爲布隆過濾器或哈希表的位數，k爲布隆過濾器hash函數個數。

爲了add一個元素，用k個hash函數將它hash得到bloom filter中k個bit位，將這k個bit位置1。

爲了query一個元素，即判斷它是否在集合中，用k個hash function將它hash得到k個bit位。若這k bits全爲1，則此元素在集合中；若其中任一位不爲1，則此元素比不在集合中（因爲如果在，則在add時已經把對應的k個bits位置爲1）。

不允許remove元素，因爲那樣的話會把相應的k個bits位置爲0，而其中很有可能有其他元素對應的位。因此remove會引入false negative，這是絕對不被允許的。

當k很大時，設計k個獨立的hash function是不現實並且困難的。對於一個輸出範圍很大的hash function（例如MD5產生的128 bits數），如果不同bit位的相關性很小，則可把此輸出分割爲k份。或者可將k個不同的初始值（例如0,1,2, … ,k-1）結合元素，feed給一個hash function從而產生k個不同的數。

當add的元素過多時，即n/m過大時（n是元素數，m是bloom filter的bits數），會導致false positive過高，此時就需要重新組建filter，但這種情況相對少見。

二. 時間和空間上的優勢

當可以承受一些誤報時，布隆過濾器比其它表示集合的數據結構有着很大的空間優勢。例如self-balance BST, tries, hash table或者array, chain，它們中大多數至少都要存儲元素本身，對於小整數需要少量的bits，對於字符串則需要任意多的bits（tries是個例外，因爲對於有相同prefixes的元素可以共享存儲空間）；而chain結構還需要爲存儲指針付出額外的代價。對於一個有1%誤報率和一個最優k值的布隆過濾器來說，無論元素的類型及大小，每個元素只需要9.6 bits來存儲。這個優點一部分繼承自array的緊湊性，一部分來源於它的概率性。如果你認爲1%的誤報率太高，那麼對每個元素每增加4.8 bits，我們就可將誤報率降低爲原來的1/10。add和query的時間複雜度都爲O(k)，與集合中元素的多少無關，這是其他數據結構都不能完成的。

如果可能元素範圍不是很大，並且大多數都在集合中，則使用確定性的bit array遠遠勝過使用布隆過濾器。因爲bit array對於每個可能的元素空間上只需要1 bit，add和query的時間複雜度只有O(1)。注意到這樣一個哈希表（bit array）只有在忽略collision並且只存儲元素是否在其中的二進制信息時，纔會獲得空間和時間上的優勢，而在此情況下，它就有效地稱爲了k=1的布隆過濾器。

而當考慮到collision時，對於有m個slot的bit array或者其他哈希表（即k=1的布隆過濾器），如果想要保證1%的誤判率，則這個bit array只能存儲m/100個元素，因而有大量的空間被浪費，同時也會使得空間複雜度急劇上升，這顯然不是space efficient的。解決的方法很簡單，使用k>1的布隆過濾器，即k個hash function將每個元素改爲對應於k個bits，因爲誤判度會降低很多，並且如果參數k和m選取得好，一半的m可被置爲爲1，這充分說明了布隆過濾器的space efficient性。

四. 舉例說明

以垃圾郵件過濾中黑白名單爲例：現有1億個email的黑名單，每個都擁有8 bytes的指紋信息，則可能的元素範圍爲，對於bit array來說是根本不可能的範圍，而且元素的數量（即email列表）爲，相比於元素範圍過於稀疏，而且還沒有考慮到哈希表中的collision問題。

若採用哈希表，由於大多數採用open addressing來解決collision，而此時的search時間複雜度爲：

即若哈希表半滿(n/m = 1/2)，則每次search需要probe 2次，因此在保證效率的情況下哈希表的存儲效率最好不超過50%。此時每個元素佔8 bytes，總空間爲：

若採用Perfect hashing（這裏可以採用Perfect hashing是因爲主要操作是search/query，而並不是add和remove），雖然保證worst-case也只有一次probe，但是空間利用率更低，一般情況下爲50%，worst-case時有不到一半的概率爲25%。

若採用布隆過濾器，取k=8。因爲n爲1億，所以總共需要被置位爲1，又因爲在保證誤判率低且k和m選取合適時，空間利用率爲50%（後面會解釋），所以總空間爲：

所需空間比上述哈希結構小得多，並且誤判率在萬分之一以下。

四. 誤判概率的證明和計算

假設布隆過濾器中的hash function滿足simple uniform hashing假設：每個元素都等概率地hash到m個slot中的任何一個，與其它元素被hash到哪個slot無關。若m爲bit數，則對某一特定bit位在一個元素由某特定hash function插入時沒有被置位爲1的概率爲：