哈希函數
哈希函數
- 輸入域無窮大
- 輸出域有邊界(1<<64)
- 輸入相同的樣本,一定得到相同的輸出結果
- 不同的樣本,有可能發生碰撞(結果相同)
- 在輸入源樣本量足夠大的情況下,結果將在輸出域上均勻分佈。
哈希函數的離散性,能夠打亂樣本規律。
哈希函數實現的方式
通過大量的異或,交換。打亂原本的樣本結構,放大樣本差異。
生成不相關的hash函數
正常一個hash函數的結果h爲16字節,每個字節爲一個16進制(09,af中的)的任意值。將前8爲作爲h1,後8位作爲h2。
通過h1 + k * h2生成一個新的結果。並且他將於原本的h無關。
哈希函數特性的使用
大任務(hash % n
)分流成N個小任務。
經典哈希表
經典的哈希表結構通過數組+鏈表的結構實現
哈希表的結構
哈希表的本質是一個數組,數組中每一個元素稱爲一個箱子(bin),箱子中存放的是鏈表,鏈表節點中存放的鍵值對。
哈希表存儲的過程
- 根據 key 計算出它的哈希值 h。
- 假設箱子的個數爲 n,那麼這個鍵值對應該放在第 (h % n) 個箱子中。
- 哈希值h相同,通過鏈表存儲在同一個箱子中。
自動擴容
當哈希表的效率因數組量過大造成損耗,進行擴容並重新簡歷哈希表
- 當某一個鏈表上的節點個數超過某個係數(負載因子),將進行擴容。
- 擴容可以是離線的(在非活躍狀態下進行擴容,重建哈希表,重建結束後再使用新的哈希表)
增刪改查的時間複雜度
對key進行hash,通過下標尋址,查找一個短鏈表均爲常數時間操作。
時間複雜度===》O(1)
設計RandomPool結構
【題目】 設計一種結構,在該結構中有如下三個功能:
insert(key):將某個key加入到該結構,做到不重複加入。
delete(key):將原本在結構中的某個key移除。
getRandom(): 等概率隨機返回結構中的任何一個key。
【要求】 Insert、delete和getRandom方法的時間複雜度都是 O(1)
需要的結構:
兩個哈希表,一個size變量計數
每次添加一個新的key23:
- 令size+1
- 將key23作爲key,size作爲value,記錄在第一個hashMap中
- 將size作爲key,key23作爲value,記錄在第二個haskMap中
讀取隨機key時,在第二個hashMap中用(1~size)作爲key進行查詢返回
刪除key時,將末尾元素與刪除元素的index互換,刪除該元素。並將size-1。
布隆過濾器BloomFilter
布隆過濾器可以用於檢索一個元素是否在一個集合中。它的優點是空間效率和查詢時間都比一般的算法要好的多,缺點是有一定的誤識別率和刪除困難。
可以解決爬蟲去重,黑名單問題。
實現一個bit類型數組,將數據容量擴容
- 建立一個[基礎類型]類型的數組
- 一個Int類型可以表示成32bit的二進制數據,long類型則是64bit
- 一個[Int]數組將是普通數組的32倍容量
以一個100長度的Int數組([bit]長度爲3200)arr爲例,當我們想修改第3000個bit:
3000/32獲得arr組的indexI
3000%32獲得arr[indexI]下,[bit]想要修改的indexB
-
通過
arr[indexI] = (arr[IndexI] | (1 << indexB))
進行修改1
左移indexB
個位置,將會變成00000010000
這種形式。然後與原本的arr[IndexI]
相交,對應位置將會被修改爲1
可以用矩陣,將數據容量繼續擴容
以Int數組爲例
[1000]的數組可以代表3200個bit位
[1000][1000]的矩陣則可以代表3200*1000個bit位
布隆過濾器的實現
- 準備一個長度爲m的數組,通常是bit數組
- 將指定的key用一個hash函數求出hash值
- 將hash % m 確定一個位置,並將該位置從0修改成1
- 重複用k不相關個hash函數,確定多個位置並修改成1
經過這個處理之後的數組,就是布隆過濾器。
- 當一個新的key進行查詢時,也通過多次hash計算,確定是否存在於布隆過濾器
布隆過濾器的誤差
由於數組長度的限制,有可能導致描黑位置過多,導致失誤命中概率過高。
通過調整hash函數個個數k,以及數組長度m。可以得到不同的失誤率。
布隆過濾器的優勢
由於內部通過hash函數定位,最終過濾器所佔內存的大小與單樣本的內存大小無關。
比如一個長度爲1000000的字符串,也並不需要存進數組。只需要在數組中修改k個位置即可。
布隆過濾器長度公式
[bit]的長度m,樣本量n,預期失誤率p,ln是自然對數
布隆過濾器hash函數個數公式
布隆過濾器真是失誤率
當m和k確定之後的失誤率
經典服務器抗壓結構
通過對key進行hash % n 可以將讀寫的壓力均勻的分佈給三個服務器
而這種結構,當加入新的服務器或減少原有的服務器。我們需要像hashMap的自動擴容一樣需要重建整個映射。
一致性哈希
經典抗壓結構在擴容時,需要對數據做全量遷移,計算每一條數據的歸屬。
一致性哈希可以降低數據遷移的代價,同時保證負載均衡。
正常的工作流程
- 根據關鍵信息計算出三個負載服務器的hashCode:h1,h2,h3。
- 將三個值交由前方的前段服務器持有
- 當進行讀寫操作時,對key進行hash,用二分的方式尋找順時針方向最近的負載服務器並交付。
數據遷移的流程
只需要將黑色部分數據從1號服務器遷移給4號服務器即可。
虛擬節點技術
通過將每個服務器分配N個虛擬節點映射,讓整個環上的分割區域約等於平均。