論一致性hash算法的重要性

一致性hash算法是個啥?相信很多老牌程序員都不太清楚,爲什麼?因爲它主要用於負載均衡,解決數據相對一致性問題的。一般公司搞個哈希、輪詢、權重都了不得了,用什麼一致性哈希算法,但一致性哈希算法是個啥,有點追求的產品經理還是要了解的。

nginx裏面有個哈希算法,這個哈希算法的使用場景大概是,我的某一個客戶端要一直連到特定後端服務器上,不許變,變了就會出錯,如此可以解決我們實際場景中一些問題,比如:session問題,redis緩存數據存儲等等。

如果用於緩存場景,普通哈希算法邏輯大概是這樣的,如果有10臺緩存服務器,客戶端 1數據存儲在1節點(1模除10)客戶端2數據存儲在2節點上......客戶端11存儲在1節點上,以此類推。但忽然有一天,有一臺機器老化了,你的總服務器個數變成了9,可想而知,再次做取模運算,可能原來的數據已經不在,可能你會說,沒關係啊,數據庫裏面還有一份呢?重新加載下就Ok啦,是的(沒見識),如果對於上億級流量場景,可能就會發生緩存擊穿問題,導致一連串的崩潰。

這時就輪到一致性hash算法上場了,其實一致性hash算法思想和實現非常簡單,每每想到一致性哈希算法,大家都應該想到這個環(不知道怎麼回事,每當我看到這個環,總是想到張衡的地震儀)。

實現該算法的大致思路如下:

1、構造一個哈希環

2、把服務器對應的節點映射到哈希環上

3、客戶端請求,順時針找到該哈希環上的服務器節點

如此,足矣!這麼簡單的邏輯,用代碼實現下吧,首先需要構造一個哈希環,哈希環看起來比較抽象,如何實現?找下規律發現哈希環上放的是一個KV數據對,key是哈希,value是對應的服務器,而且是順序的,自然就想到了SortedMap。

SortedMap<Integer, String> sortedMap = new TreeMap<Integer, String>(); 但哈希函數如何實現呢?這個就比較有意思了,這裏不過多介紹哈希函數的生成過程,反正你應該選擇一個分佈相對均勻、區間儘可能大的哈希函數,建議採用ketama或者FNV1_32,FNV代碼實現如下:

        final int p = 16777619;
        int hash = (int) 2166136261L;
        for (int i = 0; i < str.length(); i++)
            hash = (hash ^ str.charAt(i)) * p;
        hash += hash << 13;
        hash ^= hash >> 7;
        hash += hash << 3;
        hash ^= hash >> 17;
        hash += hash << 5;

        // 如果算出來的值爲負數則取其絕對值  
        if (hash < 0)
            hash = Math.abs(hash);
        return hash;
    }

那麼現在如何把服務器節點映射哈希環中呢?且看如下代碼實現:

 for (int i = 0; i < servers.length; i++) {
            int hash = FNVHash(servers[i]);
            sortedMap.put(hash, servers[i]);
}```

當然客戶端請求過來只需要計算客戶端的哈希值,順時針旋轉找到對應的服務端節點即可,如下爲代碼實現:

```private static String getServer(String key) {
    //得到該key的hash值  
    int hash = FNVHash(key);
    //得到大於該Hash值的所有Map  
    SortedMap<Integer, String> subMap = sortedMap.tailMap(hash);
    if (subMap.isEmpty()) {
        //如果沒有比該key的hash值大的,則從第一個node開始  
        Integer i = sortedMap.firstKey();
        //返回對應的服務器  
        return sortedMap.get(i);
    } else {
        //第一個Key就是順時針過去離node最近的那個結點  
        Integer i = subMap.firstKey();
        //返回對應的服務器  
        return subMap.get(i);
    }
}

總結來說,假設有k個節點,數據的取值範圍就是[0, n],我們把[0,n]劃分爲m個區間,m遠遠大於k,那麼每個機器就負責m/k個區間。這樣如果有將幾個小區間的數據遷移到新區間上,既保證了數據的一致性,也保證了數據的均衡。簡單來說,先根據機器IP生成哈希值,當客戶端數據key進來時,進行哈希操作,落到圓環中的某一點,順時針旋轉落到第一個節點上。

這個時候你可能會發現一個問題,如果說節點過於稀疏,那麼很可能所有數據都落到一個節點上,導致數據傾斜,這個時候可以考慮虛擬節點。虛擬節點的添加實現也非常簡單,大致思路是構造哈希環的過程中使用虛擬節點,取出虛擬節點,最後找到對應的真實節點即可。你可以思考下基於如上代碼如何改造?我在github給出了實現過程,你可以參考: https://github.com/strictnerd/awesome-alg/tree/main/java/hash​

這個時候對於有大規模緩存使用場景的同學可能會說,在實際生產環境中每個服務器節點的配置都不一樣,一致性哈希算法只保證了數據的一致和均衡,但是並不能根據機器的負載來控制服務端緩存的存儲數量,這時可以考慮有界負載一致性哈希算法,具體如何使用,我們下次再說!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章