一致性hash算法是個啥?相信很多老牌程序員都不太清楚,爲什麼?因爲它主要用於負載均衡,解決數據相對一致性問題的。一般公司搞個哈希、輪詢、權重都了不得了,用什麼一致性哈希算法,但一致性哈希算法是個啥,有點追求的產品經理還是要了解的。
nginx裏面有個哈希算法,這個哈希算法的使用場景大概是,我的某一個客戶端要一直連到特定後端服務器上,不許變,變了就會出錯,如此可以解決我們實際場景中一些問題,比如:session問題,redis緩存數據存儲等等。
如果用於緩存場景,普通哈希算法邏輯大概是這樣的,如果有10臺緩存服務器,客戶端 1數據存儲在1節點(1模除10)客戶端2數據存儲在2節點上......客戶端11存儲在1節點上,以此類推。但忽然有一天,有一臺機器老化了,你的總服務器個數變成了9,可想而知,再次做取模運算,可能原來的數據已經不在,可能你會說,沒關係啊,數據庫裏面還有一份呢?重新加載下就Ok啦,是的(沒見識),如果對於上億級流量場景,可能就會發生緩存擊穿問題,導致一連串的崩潰。
這時就輪到一致性hash算法上場了,其實一致性hash算法思想和實現非常簡單,每每想到一致性哈希算法,大家都應該想到這個環(不知道怎麼回事,每當我看到這個環,總是想到張衡的地震儀)。
實現該算法的大致思路如下:
1、構造一個哈希環
2、把服務器對應的節點映射到哈希環上
3、客戶端請求,順時針找到該哈希環上的服務器節點
如此,足矣!這麼簡單的邏輯,用代碼實現下吧,首先需要構造一個哈希環,哈希環看起來比較抽象,如何實現?找下規律發現哈希環上放的是一個KV數據對,key是哈希,value是對應的服務器,而且是順序的,自然就想到了SortedMap。
SortedMap<Integer, String> sortedMap = new TreeMap<Integer, String>();
但哈希函數如何實現呢?這個就比較有意思了,這裏不過多介紹哈希函數的生成過程,反正你應該選擇一個分佈相對均勻、區間儘可能大的哈希函數,建議採用ketama或者FNV1_32,FNV代碼實現如下:
final int p = 16777619;
int hash = (int) 2166136261L;
for (int i = 0; i < str.length(); i++)
hash = (hash ^ str.charAt(i)) * p;
hash += hash << 13;
hash ^= hash >> 7;
hash += hash << 3;
hash ^= hash >> 17;
hash += hash << 5;
// 如果算出來的值爲負數則取其絕對值
if (hash < 0)
hash = Math.abs(hash);
return hash;
}
那麼現在如何把服務器節點映射哈希環中呢?且看如下代碼實現:
for (int i = 0; i < servers.length; i++) {
int hash = FNVHash(servers[i]);
sortedMap.put(hash, servers[i]);
}```
當然客戶端請求過來只需要計算客戶端的哈希值,順時針旋轉找到對應的服務端節點即可,如下爲代碼實現:
```private static String getServer(String key) {
//得到該key的hash值
int hash = FNVHash(key);
//得到大於該Hash值的所有Map
SortedMap<Integer, String> subMap = sortedMap.tailMap(hash);
if (subMap.isEmpty()) {
//如果沒有比該key的hash值大的,則從第一個node開始
Integer i = sortedMap.firstKey();
//返回對應的服務器
return sortedMap.get(i);
} else {
//第一個Key就是順時針過去離node最近的那個結點
Integer i = subMap.firstKey();
//返回對應的服務器
return subMap.get(i);
}
}
總結來說,假設有k個節點,數據的取值範圍就是[0, n],我們把[0,n]劃分爲m個區間,m遠遠大於k,那麼每個機器就負責m/k個區間。這樣如果有將幾個小區間的數據遷移到新區間上,既保證了數據的一致性,也保證了數據的均衡。簡單來說,先根據機器IP生成哈希值,當客戶端數據key進來時,進行哈希操作,落到圓環中的某一點,順時針旋轉落到第一個節點上。
這個時候你可能會發現一個問題,如果說節點過於稀疏,那麼很可能所有數據都落到一個節點上,導致數據傾斜,這個時候可以考慮虛擬節點。虛擬節點的添加實現也非常簡單,大致思路是構造哈希環的過程中使用虛擬節點,取出虛擬節點,最後找到對應的真實節點即可。你可以思考下基於如上代碼如何改造?我在github給出了實現過程,你可以參考: https://github.com/strictnerd/awesome-alg/tree/main/java/hash
這個時候對於有大規模緩存使用場景的同學可能會說,在實際生產環境中每個服務器節點的配置都不一樣,一致性哈希算法只保證了數據的一致和均衡,但是並不能根據機器的負載來控制服務端緩存的存儲數量,這時可以考慮有界負載一致性哈希算法,具體如何使用,我們下次再說!