BloomFilter的關鍵在於hash算法的設定和bit數組的大小確定,通過權衡得到一個錯誤概率可以接受的結果。
算法比較複雜,也不是我們研究的範疇,我們直接使用已有的實現。
google的guava包中提供了BloomFilter類
1、原理
布隆過濾器的巨大用處就是,能夠迅速判斷一個元素是否在一個集合中。因此他有如下三個使用場景:
網頁爬蟲對URL的去重,避免爬取相同的URL地址
反垃圾郵件,從數十億個垃圾郵件列表中判斷某郵箱是否垃圾郵箱(同理,垃圾短信)
緩存擊穿,將已存在的緩存放到布隆過濾器中,當黑客訪問不存在的緩存時迅速返回避免緩存及DB掛掉。
原理:
當一個元素被加入集合時,通過K個散列函數將這個元素映射成一個位數組中的K個點,把它們置爲1。檢索時,我們只要看看這些點是不是都是1就(大約)知道集合中有沒有它了:如果這些點有任何一個0,則被檢元素一定不在;如果都是1,則被檢元素很可能在。
其內部維護一個全爲0的bit數組,需要說明的是,布隆過濾器有一個誤判率的概念,誤判率越低,則數組越長,所佔空間越大。誤判率越高則數組越小,所佔的空間越小。
假設,根據誤判率,我們生成一個10位的bit數組,以及2個hash函數((f_1,f_2)),如下圖所示(生成的數組的位數和hash函數的數量,我們不用去關心是如何生成的,有數學論文進行過專業的證明)。
假設輸入集合爲((N_1,N_2)),經過計算(f_1(N_1))得到的數值得爲2,(f_2(N_1))得到的數值爲5,則將數組下標爲2和下表爲5的位置置爲1,如下圖所示
同理,經過計算(f_1(N_2))得到的數值得爲3,(f_2(N_2))得到的數值爲6,則將數組下標爲3和下表爲6的位置置爲1,如下圖所示
這個時候,我們有第三個數(N_3),我們判斷(N_3)在不在集合((N_1,N_2))中,就進行(f_1(N_3),f_2(N_3))的計算
若值恰巧都位於上圖的紅色位置中,我們則認爲,(N_3)在集合((N_1,N_2))中
若值有一個不位於上圖的紅色位置中,我們則認爲,(N_3)不在集合((N_1,N_2))中
以上就是布隆過濾器的計算原理,下面我們進行性能測試,
2、性能測試
(1)新建一個maven工程,引入guava包
<dependencies> <dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> <version>22.0</version> </dependency> </dependencies>
(2)測試一個元素是否屬於一個百萬元素集合所需耗時
package bloomfilter;
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;
import java.nio.charset.Charset;
public class Test {
private static int size = 1000000;
private static BloomFilter<Integer> bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size);
public static void main(String[] args) {
for (int i = 0; i < size; i++) {
bloomFilter.put(i);
}
long startTime = System.nanoTime(); // 獲取開始時間
//判斷這一百萬個數中是否包含29999這個數
if (bloomFilter.mightContain(29999)) {
System.out.println("命中了");
}
long endTime = System.nanoTime(); // 獲取結束時間
System.out.println("程序運行時間: " + (endTime - startTime) + "納秒");
}
}
輸出如下所示
命中了
程序運行時間: 219386納秒
也就是說,判斷一個數是否屬於一個百萬級別的集合,只要0.219ms就可以完成,性能極佳。
(3)誤判率的一些概念
首先,我們先不對誤判率做顯示的設置,進行一個測試,代碼如下所示
package bloomfilter;
import java.util.ArrayList;
import java.util.List;
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;
public class Test {
private static int size = 1000000;
private static BloomFilter<Integer> bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size);
public static void main(String[] args) {
for (int i = 0; i < size; i++) {
bloomFilter.put(i);
}
List<Integer> list = new ArrayList<Integer>(1000);
//故意取10000個不在過濾器裏的值,看看有多少個會被認爲在過濾器裏
for (int i = size + 10000; i < size + 20000; i++) {
if (bloomFilter.mightContain(i)) {
list.add(i);
}
}
System.out.println("誤判的數量:" + list.size());
}
}
輸出結果如下
誤判對數量:330
如果上述代碼所示,我們故意取10000個不在過濾器裏的值,卻還有330個被認爲在過濾器裏,這說明了誤判率爲0.03.即,在不做任何設置的情況下,默認的誤判率爲0.03。
下面上源碼來證明:
構造方法改爲:
private static BloomFilter<Integer> bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size,0.01);
此時誤判率爲0.01.
4、實際使用
僞代碼:
String get(String key) {
String value = redis.get(key);
if (value == null) {
if(!bloomfilter.mightContain(key)){
return null;
}else{
value = db.get(key);
redis.set(key, value);
}
}
return value;
}
缺點:
需要另外維護一個集合來存放緩存的Key
布隆過濾器不支持刪值操作