布隆過濾器

布隆過濾器（後面）

BloomFilter（大數據去重）

BloomFilter的關鍵在於hash算法的設定和bit數組的大小確定，通過權衡得到一個錯誤概率可以接受的結果。

算法比較複雜，也不是我們研究的範疇，我們直接使用已有的實現。

google的guava包中提供了BloomFilter類

1、原理

布隆過濾器的巨大用處就是，能夠迅速判斷一個元素是否在一個集合中。因此他有如下三個使用場景:

網頁爬蟲對URL的去重，避免爬取相同的URL地址

反垃圾郵件，從數十億個垃圾郵件列表中判斷某郵箱是否垃圾郵箱（同理，垃圾短信）

緩存擊穿，將已存在的緩存放到布隆過濾器中，當黑客訪問不存在的緩存時迅速返回避免緩存及DB掛掉。

原理：

當一個元素被加入集合時，通過K個散列函數將這個元素映射成一個位數組中的K個點，把它們置爲1。檢索時，我們只要看看這些點是不是都是1就（大約）知道集合中有沒有它了：如果這些點有任何一個0，則被檢元素一定不在；如果都是1，則被檢元素很可能在。

其內部維護一個全爲0的bit數組，需要說明的是，布隆過濾器有一個誤判率的概念，誤判率越低，則數組越長，所佔空間越大。誤判率越高則數組越小，所佔的空間越小。

假設，根據誤判率，我們生成一個10位的bit數組，以及2個hash函數（(f_1,f_2)），如下圖所示(生成的數組的位數和hash函數的數量，我們不用去關心是如何生成的，有數學論文進行過專業的證明)。

假設輸入集合爲((N_1,N_2)),經過計算(f_1(N_1))得到的數值得爲2，(f_2(N_1))得到的數值爲5，則將數組下標爲2和下表爲5的位置置爲1，如下圖所示

同理，經過計算(f_1(N_2))得到的數值得爲3，(f_2(N_2))得到的數值爲6，則將數組下標爲3和下表爲6的位置置爲1，如下圖所示

這個時候，我們有第三個數(N_3)，我們判斷(N_3)在不在集合((N_1,N_2))中，就進行(f_1(N_3)，f_2(N_3))的計算

若值恰巧都位於上圖的紅色位置中，我們則認爲，(N_3)在集合((N_1,N_2))中

若值有一個不位於上圖的紅色位置中，我們則認爲，(N_3)不在集合((N_1,N_2))中

以上就是布隆過濾器的計算原理，下面我們進行性能測試，

2、性能測試

(1)新建一個maven工程，引入guava包

<dependencies>  
        <dependency>  
            <groupId>com.google.guava</groupId>  
            <artifactId>guava</artifactId>  
            <version>22.0</version>  
        </dependency>  
    </dependencies>

(2)測試一個元素是否屬於一個百萬元素集合所需耗時

package bloomfilter;

import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;
import java.nio.charset.Charset;

public class Test {
    private static int size = 1000000;

    private static BloomFilter<Integer> bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size);

    public static void main(String[] args) {
        for (int i = 0; i < size; i++) {
            bloomFilter.put(i);
        }
        long startTime = System.nanoTime(); // 獲取開始時間
        
        //判斷這一百萬個數中是否包含29999這個數
        if (bloomFilter.mightContain(29999)) {
            System.out.println("命中了");
        }
        long endTime = System.nanoTime();   // 獲取結束時間

        System.out.println("程序運行時間： " + (endTime - startTime) + "納秒");

    }
}

輸出如下所示

命中了

程序運行時間： 219386納秒

也就是說，判斷一個數是否屬於一個百萬級別的集合，只要0.219ms就可以完成，性能極佳。

(3)誤判率的一些概念

首先，我們先不對誤判率做顯示的設置，進行一個測試，代碼如下所示

package bloomfilter;

import java.util.ArrayList;
import java.util.List;

import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;

public class Test {
    private static int size = 1000000;

    private static BloomFilter<Integer> bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size);

    public static void main(String[] args) {
        for (int i = 0; i < size; i++) {
            bloomFilter.put(i);
        }
        List<Integer> list = new ArrayList<Integer>(1000);  
        
        //故意取10000個不在過濾器裏的值，看看有多少個會被認爲在過濾器裏
        for (int i = size + 10000; i < size + 20000; i++) {  
            if (bloomFilter.mightContain(i)) {  
                list.add(i);  
            }  
        }  
        System.out.println("誤判的數量：" + list.size()); 

    }
}

輸出結果如下

誤判對數量：330

如果上述代碼所示，我們故意取10000個不在過濾器裏的值，卻還有330個被認爲在過濾器裏，這說明了誤判率爲0.03.即，在不做任何設置的情況下，默認的誤判率爲0.03。

下面上源碼來證明：

構造方法改爲：

private static BloomFilter<Integer> bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size,0.01);

此時誤判率爲0.01.

4、實際使用

僞代碼：

String get(String key) {  
   String value = redis.get(key);  
   if (value  == null) {  
        if(!bloomfilter.mightContain(key)){
            return null;
        }else{
           value = db.get(key);  
           redis.set(key, value);  
        }
    } 
    return value；
}

缺點：

需要另外維護一個集合來存放緩存的Key

布隆過濾器不支持刪值操作

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

2020年上半年數據庫系統工程師考試

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

【tomcat系統架構（一）】

【HTTP1.0 HTTP 1.1 HTTP 2.0主要區別】長頭域+多複數壓推

【HTTPS原理，架構師必讀！】

緩存總結（二）

fragment內嵌fragment之間傳值+切換fragment

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結