分佈式系統關注點——僅需這一篇,吃透「負載均衡」妥妥的

本文長度爲3426字,預計讀完需1.2MB流量,建議閱讀9分鐘。

 

  上一篇《分佈式系統關注點——初識「高可用」》我們對「高可用」有了一個初步認識,其中認爲「負載均衡」是「高可用」的核心工作。那麼,本篇將通過圖文並茂的方式,來描述出每一種負載均衡策略的完整樣貌。

 

 

一、「負載均衡」是什麼

        正如題圖所示的這樣,由一個獨立的統一入口來收斂流量,再做二次分發的過程就是「負載均衡」,它的本質和「分佈式系統」一樣,是「分治」。

 

        如果大家習慣了開車的時候用一些導航軟件,我們會發現,導航軟件的推薦路線方案會有一個數量的上限,比如3條、5條。因此,其實本質上它也起到了一個類似「負載均衡」的作用,因爲如果只能取Top3的通暢路線,自然擁堵嚴重的路線就無法推薦給你了,使得車流的壓力被分攤到了相對空閒的路線上。

 

        在軟件系統中也是一樣的道理,爲了避免流量分攤不均,造成局部節點負載過大(如CPU吃緊等),所以引入一個獨立的統一入口來做類似上面的“導航”的工作。但是,軟件系統中的「負載均衡」與導航的不同在於,導航是一個柔性策略,最終還是需要使用者做選擇,而前者則不同。

 

        怎麼均衡的背後是策略在起作用,而策略的背後是由某些算法或者說邏輯來組成的。比如,導航中的算法屬於「路徑規劃」範疇,在這個範疇內又細分爲「靜態路徑規劃」和「動態路徑規劃」,並且,在不同的分支下還有各種具體計算的算法實現,如Dijikstra、A*等。同樣的,在軟件系統中的負載均衡,也有很多算法或者說邏輯在支撐着這些策略,巧的是也有靜態和動態之分。

 

 

二、常用「負載均衡」策略圖解

        下面來羅列一下日常工作中最常見的5種策略。

 

01  輪詢

 

  這是最常用也最簡單策略,平均分配,人人都有、一人一次。大致的代碼如下。

 

int  globalIndex = 0;   //注意是全局變量,不是局部變量。
try
{
    return servers[globalIndex];
}
finally
{
    globalIndex++;
    if (globalIndex == 3)
        globalIndex = 0;
}

 

02  加權輪詢

        在輪詢的基礎上,增加了一個權重的概念。權重是一個泛化後的概念,可以用任意方式來體現,本質上是一個能者多勞思想。比如,可以根據宿主的性能差異配置不同的權重。大致的代碼如下。

 

 matchedIndex = -; total = ;
 ( i = ; i < servers.Length; i++)
{
      servers[i].cur_weight += servers[i].weight;
      total += servers[i].weight;
       (matchedIndex == - || servers[matchedIndex].cur_weight < servers[i].cur_weight) 
      {
            matchedIndex = i;
      }
}

servers[matchedIndex].cur_weight -= total; servers[matchedIndex];

 

        這段代碼的過程如下圖的表格。"()"中的數字就是自增數,代碼中的cur_weight。

 

 

        值得注意的是,加權輪詢本身還有不同的實現方式,雖說最終的比例都是2:1:2。但是在請求送達的先後順序上可以所有不同。比如「5-4,3,2-1」和上面的案例相比,最終比例是一樣的,但是效果不同。「5-4,3,2-1」更容易產生併發問題,導致服務端擁塞,且這個問題隨着權重數字越大越嚴重。例子:10:5:3的結果是「18-17-16-15-14-13-12-11-10-9,8-7-6-5-4,3-2-1」 

 

03  最少連接數

        這是一種根據實時的負載情況,進行動態負載均衡的方式。維護好活動中的連接數量,然後取最小的返回即可。大致的代碼如下。

 

var matchedServer = servers.orderBy(e => e.active_conns).first();
matchedServer.active_conns += 1;
return matchedServer;
//在連接關閉時還需對active_conns做減1的動作。

 

04  最快響應

        這也是一種動態負載均衡策略,它的本質是根據每個節點對過去一段時間內的響應情況來分配,響應越快分配的越多。具體的運作方式也有很多,上圖的這種可以理解爲,將最近一段時間的請求耗時的平均值記錄下來,結合前面的「加權輪詢」來處理,所以等價於2:1:3的加權輪詢。

 

        題外話:一般來說,同機房下的延遲基本沒什麼差異,響應時間的差異主要在服務的處理能力上。如果在跨地域(例:浙江->上海,還是浙江->北京)的一些請求處理中運用,大多數情況會使用定時「ping」的方式來獲取延遲情況,因爲是OSI的L3轉發,數據更乾淨,準確性更高。

 

05  Hash法

        hash法的負載均衡與之前的幾種不同在於,它的結果是由客戶端決定的。通過客戶端帶來的某個標識經過一個標準化的散列函數進行打散分攤

 

        上圖中的散列函數運用的是最簡單粗暴的「取餘法」。

        題外話:散列函數除了取餘之外,還有諸如「變基」、「摺疊」、「平方取中法」等等,此處不做展開,有興趣的小夥伴可自行查閱資料。

 

        另外,被求餘的參數其實可以是任意的,只要最終轉化成一個整數參與運算即可。最常用的應該是用來源ip地址作爲參數,這樣可以確保相同的客戶端請求儘可能落在同一臺服務器上。

 

 

三、常用「負載均衡」策略優缺點和適用場景

        我們知道,沒有完美的事物,負載均衡策略也是一樣。上面列舉的這些最常用的策略也有各自的優缺點和適用場景,我稍作了整理,如下。

 

 

        這些負載均衡算法之所以常用也是因爲簡單,想要更優的效果,必然就需要更高的複雜度。比如,可以將簡單的策略組合使用、或者通過更多維度的數據採樣來綜合評估、甚至是基於進行數據挖掘後的預測算法來做。

 

 

四、用「健康探測」來保障高可用

        不管是什麼樣的策略,難免會遇到機器故障或者程序故障的情況。所以要確保負載均衡能更好的起到效果,還需要結合一些「健康探測」機制。定時的去探測服務端是不是還能連上,響應是不是超出預期的慢。如果節點屬於“不可用”的狀態的話,需要將這個節點臨時從待選取列表中移除,以提高可用性。一般常用的「健康探測」方式有3種。

 

01  HTTP探測

        使用Get/Post的方式請求服務端的某個固定的URL,判斷返回的內容是否符合預期。一般使用Http狀態碼、response中的內容來判斷。

 

02  TCP探測

        基於Tcp的三次握手機制來探測指定的IP + 端口。最佳實踐可以借鑑阿里雲的SLB機制,如下圖。

▲圖片來源於阿里雲,版權歸原作者所有


        值得注意的是,爲了儘早釋放連接,在三次握手結束後立馬跟上RST來中斷TCP連接。

 

03  UDP探測

        可能有部分應用使用的UDP協議。在此協議下可以通過報文來進行探測指定的IP + 端口。最佳實踐同樣可以借鑑阿里雲的SLB機制,如下圖。

▲圖片來源於阿里雲,版權歸原作者所有

 

        結果的判定方式是:在服務端沒有返回任何信息的情況下,默認正常狀態。否則會返回一個ICMP的報錯信息。

 

 

五、結語

        用一句話來概括負載均衡的本質是:

        將請求或者說流量,以期望的規則分攤到多個操作單元上進行執行。

        通過它可以實現橫向擴展(scale out),將冗餘的作用發揮爲「高可用」。另外,還可以物盡其用,提升資源使用率。

 

 

相關文章:

 

 

 

作者:Zachary(個人微信號:Zachary-ZF

微信公衆號(首發):跨界架構師。<-- 點擊查閱近期熱門文章

定期發表原創內容:架構設計丨分佈式系統丨產品丨運營丨一些深度思考

掃碼加入小圈子 ↓

article_end.png



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章