一致性hash算法

原創

2020-02-22 03:08

今天看了下一致性hash算法，先總結如下：

一致性Hash算法將整個哈希值空間組織成一個虛擬的圓環。

整個空間按順時針方向組織，圓環的正上方的點代表0，0點右側的第一個點代表1，以此類推，2、3、4、5、6……直到2^32-1，也就是說0點左側的第一個點代表2^32-1， 0和2^32-1在零點中方向重合，我們把這個由2^32個點組成的圓環稱爲Hash環。
下一步將各個服務器使用Hash進行一個哈希，具體可以選擇服務器的IP或主機名作爲關鍵字進行哈希，這樣每臺機器就能確定其在哈希環上的位置。

接下來使用如下算法定位數據訪問到相應服務器：將數據key使用相同的函數Hash計算出哈希值，並確定此數據在環上的位置，從此位置沿環順時針“行走”，第一臺遇到的服務器就是其應該定位到的服務器！

一致性Hash算法對於節點的增減都只需重定位環空間中的一小部分數據，具有較好的容錯性和可擴展性。

一致性Hash算法在服務節點太少時，容易因爲節點分部不均勻而造成數據傾斜（被緩存的對象大部分集中緩存在某一臺服務器上）問題，例如系統中只有兩臺服務器，其環分佈如下：

此時必然造成大量數據集中到Node A上，而只有極少量會定位到Node B上。爲了解決這種數據傾斜問題，一致性Hash算法引入了虛擬節點機制，即對每一個服務節點計算多個哈希，每個計算結果位置都放置一個此服務節點，稱爲虛擬節點。具體做法可以在服務器IP或主機名的後面增加編號來實現。

例如上面的情況，可以爲每臺服務器計算三個虛擬節點，於是可以分別計算 “Node A#1”、“Node A#2”、“Node A#3”、“Node B#1”、“Node B#2”、“Node B#3”的哈希值，於是形成六個虛擬節點：

同時數據定位算法不變，只是多了一步虛擬節點到實際節點的映射，例如定位到“Node A#1”、“Node A#2”、“Node A#3”三個虛擬節點的數據均定位到Node A上。這樣就解決了服務節點少時數據傾斜的問題。在實際應用中，通常將虛擬節點數設置爲32甚至更大，因此即使很少的服務節點也能做到相對均勻的數據分佈。