提到布隆過濾器總想起上大學時候學習的什麼切比雪夫濾波器之類的東西(博主是學通信的),布隆過濾器是一種布爾型判斷器,可以非常高效的判斷一個物品是否在某個列表裏。有人說判斷一個item是否在一個item列表裏,只要將所有item存在數據庫,或者做一層緩存存在redis裏,再遍歷的查一次不就得了?這麼做沒問題,但是當item量巨大的時候,會出現緩存擊穿等問題。布隆過濾器很好地解決了這個問題,接下來會具體介紹原理。
布隆過濾器會被應用在許多場景下,我接觸比較多的就是推薦場景的應用,接下來講下具體的業務場景和原理。
01 布隆過濾器在推薦場景下的應用
推薦系統中應用布隆過濾器主要體現以下幾個場景:
場景1:判斷一個用戶是否是新用戶
場景2:判斷一個Item是否是新Item
場景3:判斷一個Item是否曾經推薦給過某個User
這些場景的特點是都不需要獲取具體信息,只需要知道是否存在這個信息即可。比如判斷用戶是否是新用戶這個場景,用戶進來後首先判斷是否是新客,如果是新客就走冷啓動推薦邏輯,如果是老客就走傳統的召回+排序的推薦邏輯:
02 布隆過濾器具體原理
用過Redis都知道,Redis是將數據通過KV形式完整存儲到內存裏,並且提供了O(1)複雜度的查詢速度。但是Redis受限於內存大小,承載不了特別大的數據。比如一個系統包含10億個賬號,每個賬號佔位100B,那麼全寫到Redis裏得有快100G的內存纔行,比較難達到。
布隆過濾器之所以快並且佔用空間小,主要原因是布隆過濾器並不直接存儲內容,存儲的是哈希後的結果。比如下面這個圖,假設是hash(A)的結果,
則第3個、第6個、第10個這三個等於“1”。在查詢的時候只要查詢這三個位置是否是1就能確定A是否存在。
但是因爲哈希存在哈希衝突這樣的問題,有可能第3個、第6個、第10個這三個等於“1”,但是這三個位置不是代表着A,而是B,因爲A的哈希和B的哈希結果有衝突,這種概率很低。所以布隆過濾器的返回結果是一個概率值,返回的是某個對下可能存在的概率是多少。