論一致性hash算法的重要性

原創

2021-04-12 09:32

一致性hash算法是個啥？相信很多老牌程序員都不太清楚，爲什麼？因爲它主要用於負載均衡，解決數據相對一致性問題的。一般公司搞個哈希、輪詢、權重都了不得了，用什麼一致性哈希算法，但一致性哈希算法是個啥，有點追求的產品經理還是要了解的。

nginx裏面有個哈希算法，這個哈希算法的使用場景大概是，我的某一個客戶端要一直連到特定後端服務器上，不許變，變了就會出錯，如此可以解決我們實際場景中一些問題，比如：session問題，redis緩存數據存儲等等。

如果用於緩存場景，普通哈希算法邏輯大概是這樣的，如果有10臺緩存服務器，客戶端 1數據存儲在1節點（1模除10）客戶端2數據存儲在2節點上......客戶端11存儲在1節點上，以此類推。但忽然有一天，有一臺機器老化了，你的總服務器個數變成了9，可想而知，再次做取模運算，可能原來的數據已經不在，可能你會說，沒關係啊，數據庫裏面還有一份呢？重新加載下就Ok啦，是的（沒見識），如果對於上億級流量場景，可能就會發生緩存擊穿問題，導致一連串的崩潰。

這時就輪到一致性hash算法上場了，其實一致性hash算法思想和實現非常簡單，每每想到一致性哈希算法，大家都應該想到這個環（不知道怎麼回事，每當我看到這個環，總是想到張衡的地震儀）。

實現該算法的大致思路如下：

1、構造一個哈希環

2、把服務器對應的節點映射到哈希環上

3、客戶端請求，順時針找到該哈希環上的服務器節點

如此，足矣！這麼簡單的邏輯，用代碼實現下吧，首先需要構造一個哈希環，哈希環看起來比較抽象，如何實現？找下規律發現哈希環上放的是一個KV數據對，key是哈希，value是對應的服務器，而且是順序的，自然就想到了SortedMap。

SortedMap<Integer, String> sortedMap = new TreeMap<Integer, String>(); 但哈希函數如何實現呢？這個就比較有意思了，這裏不過多介紹哈希函數的生成過程，反正你應該選擇一個分佈相對均勻、區間儘可能大的哈希函數，建議採用ketama或者FNV1_32，FNV代碼實現如下：

        final int p = 16777619;
        int hash = (int) 2166136261L;
        for (int i = 0; i < str.length(); i++)
            hash = (hash ^ str.charAt(i)) * p;
        hash += hash << 13;
        hash ^= hash >> 7;
        hash += hash << 3;
        hash ^= hash >> 17;
        hash += hash << 5;

        // 如果算出來的值爲負數則取其絕對值  
        if (hash < 0)
            hash = Math.abs(hash);
        return hash;
    }

那麼現在如何把服務器節點映射哈希環中呢？且看如下代碼實現：

 for (int i = 0; i < servers.length; i++) {
            int hash = FNVHash(servers[i]);
            sortedMap.put(hash, servers[i]);
}```

當然客戶端請求過來只需要計算客戶端的哈希值，順時針旋轉找到對應的服務端節點即可，如下爲代碼實現：

```private static String getServer(String key) {
    //得到該key的hash值  
    int hash = FNVHash(key);
    //得到大於該Hash值的所有Map  
    SortedMap<Integer, String> subMap = sortedMap.tailMap(hash);
    if (subMap.isEmpty()) {
        //如果沒有比該key的hash值大的，則從第一個node開始  
        Integer i = sortedMap.firstKey();
        //返回對應的服務器  
        return sortedMap.get(i);
    } else {
        //第一個Key就是順時針過去離node最近的那個結點  
        Integer i = subMap.firstKey();
        //返回對應的服務器  
        return subMap.get(i);
    }
}

總結來說，假設有k個節點，數據的取值範圍就是[0, n]，我們把[0,n]劃分爲m個區間，m遠遠大於k，那麼每個機器就負責m/k個區間。這樣如果有將幾個小區間的數據遷移到新區間上，既保證了數據的一致性，也保證了數據的均衡。簡單來說，先根據機器IP生成哈希值，當客戶端數據key進來時，進行哈希操作，落到圓環中的某一點，順時針旋轉落到第一個節點上。

這個時候你可能會發現一個問題，如果說節點過於稀疏，那麼很可能所有數據都落到一個節點上，導致數據傾斜，這個時候可以考慮虛擬節點。虛擬節點的添加實現也非常簡單，大致思路是構造哈希環的過程中使用虛擬節點，取出虛擬節點，最後找到對應的真實節點即可。你可以思考下基於如上代碼如何改造？我在github給出了實現過程，你可以參考： https://github.com/strictnerd/awesome-alg/tree/main/java/hash

這個時候對於有大規模緩存使用場景的同學可能會說，在實際生產環境中每個服務器節點的配置都不一樣，一致性哈希算法只保證了數據的一致和均衡，但是並不能根據機器的負載來控制服務端緩存的存儲數量，這時可以考慮有界負載一致性哈希算法，具體如何使用，我們下次再說！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

論一致性hash算法的重要性

DAPPER 事務 TRANSACTION

Java中線程的創建方式

一鍵自動化博客發佈工具,chrome和firfox詳細配置

lightdb操作出錯:ERROR: current transaction is aborted, commands ignored until end of transaction block

lightdb 單機模式下數據庫平移

Java中的4種線程池

深圳IO-被動紅外感應設計

深圳IO-發光標誌

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結