架構:億級Web系統負載均衡幾種實現方式

負載均衡(Load Balance)是集羣技術(Cluster)的一種應用技術。負載均衡可以將工作任務分攤到多個處理單元,從而提高併發處理能力。目前最常見的負載均衡應用是Web負載均衡。根據實現的原理不同,常見的web負載均衡技術包括:DNS輪詢、IP負載均衡和CDN。其中IP負載均衡可以使用硬件設備或軟件方式來實現。
什麼是web負載均衡

服務器集羣(Cluster)使得多個服務器節點能夠協同工作,根據目的的不同,服務器集羣可以分爲:
高性能集羣:將單個重負載的請求分散到多個節點進行處理,最後再將處理結果進行彙總。
高可用集羣:提高冗餘單元,避免單點故障。
負載均衡集羣:將大量的併發請求分擔到多個處理節點。由於單個處理節點的故障不影響整個服務,負載均衡集羣同時也實現了高可用性。

一般提到的負載均衡(Load Balance),是指實現負載均衡集羣。負載均衡實現了橫向擴展,避免縱向的升級換代。本文中的web負載均衡,特指能夠分擔web請求(http,https等)的負載均衡技術。
基本原理

任何的負載均衡技術都要想辦法建立某種一對多的映射機制: 一個請求的入口映射到多個處理請求的節點,從而實現分而治之(Divide and Conquer)。
這種映射機制使得多個物理存在對外體現爲一個虛擬的整體,對服務的請求者屏蔽了內部的結構。
採用不同的機制建立映射關係,可以形成不同的負載均衡技術,常見的包括:a)DNS輪詢、b) CDN加速、c) IP負載均衡。
DNS輪詢

DNS輪詢是最簡單的負載均衡方式。以域名作爲訪問入口,通過配置多條DNS A記錄使得請求可以分配到不同的服務器。

DNS輪詢沒有快速的健康檢查機制,而且只支持WRR的調度策略導致負載很難“均衡”,通常用於要求不高的場景。並且DNS輪詢方式直接將服務器的真實地址暴露給用戶,不利於服務器安全。

DNS負載均衡技術的實現原理是在DNS服務器中爲同一個主機名配置多個IP地址,在應答DNS查詢時,DNS服務器對每個查詢將以DNS文件中主機記錄的IP地址按順序返回不同的解析結果,將客戶端的訪問引導到不同的機器上去,使得不同的客戶端訪問不同的服務器,從而達到負載均衡的目的。

最早的負載均衡技術是通過DNS來實現的,在DNS中爲多個地址配置同一個名字,因而查詢這個名字的客戶機將得到其中一個地址,從而使得不同的客戶訪問不同的服務器,達到負載均衡的目的。
DNS負載均衡是一種簡單而有效的方法,但是它不能區分服務器的差異,也不能反映服務器的當前運行狀態。

CDN
CDN(Content Delivery Network,內容分發網絡)。通過發佈機制將內容同步到大量的緩存節點,並在DNS服務器上進行擴展, 找到裏用戶最近的緩存節點作爲服務提供節點。

因爲很難自建大量的緩存節點,所以通常使用CDN運營商的服務。目前國內的服務商很少,而且按流量計費,價格也比較昂貴。

IP負載均衡
IP負載均衡是基於特定的TCP/IP技術實現的負載均衡,比如NAT、DR、Tunneling等是最經常使用的方式。

IP負載均衡可以使用硬件設備,也可以使用軟件實現。硬件設備的主要產品是F5-BIG-IP-GTM(簡稱F5), 軟件產品主要有LVS、HAProxy、NginX。其中LVS、HAProxy可以工作在4-7層,NginX工作在7層。

硬件負載均衡設備可以將核心部分做成芯片,性能和穩定性更好,而且商用產品的可管理性、文檔和服務都比較好。唯一的問題就是價格。

軟件負載均衡通常是開源軟件。自由度較高,但學習成本和管理成本會比較大。

當一個Web系統從日訪問量10萬逐步增長到1000萬,甚至超過1億的過程中,Web系統承受的壓力會越來越大,在這個過程中,我們會遇到很多的問題。爲了解決這些性能壓力帶來問題,我們需要通過搭建不同的服務和架構來解決。
當單機容量達到極限時,我們需要考慮業務拆分和分佈式部署,來解決大型網站訪問量大,併發量高,海量數據的問題。從單機到分佈式,很重要的區別是業務拆分和分佈式部署,將應用拆分後,部署到不同的機器上,實現大規模分佈式系統。

分佈式和業務拆分解決了,從集中到分佈的問題,但是每個部署的獨立業務還存在單點的問題和訪問統一入口問題,爲解決單點故障,我們可以採取冗餘的方式。將相同的應用部署到多臺機器上。解決訪問統一入口問題,我們可以在集羣前面增加負載均衡設備,實現流量分發。

Web負載均衡(Load Balancing)

簡單地說就是將負載(工作任務,訪問請求)進行平衡、分攤到多個操作單元(服務器,組件)上進行執行。對於保護處於後端的Web服務器來說,非常重要,是解決高性能,單點故障(高可用),擴展性(水平伸縮)的終極解決方案。

負載均衡的策略有很多,我們從簡單的講起哈。

1、HTTP負載均衡

當用戶發來請求的時候,Web服務器通過修改HTTP響應頭中的Location標記來返回一個新的url,然後瀏覽器再繼續請求這個新url,實際上就是頁面重定向。通過重定向,來達到“負載均衡”的目標。例如,我們在下載PHP源碼包的時候,點擊下載鏈接時,爲了解決不同國家和地域下載速度的問題,它會返回一個離我們近的下載地址。重定向的HTTP返回碼是302,如下圖:

如果使用PHP代碼來實現這個功能,方式如下:
在這裏插入圖片描述
這個重定向非常容易實現,並且可以自定義各種策略。但是,在大規模訪問量下,性能不佳。而且,給用戶的體驗也不好,實際請求發生重定向,增加了網絡延時。
2、反向代理負載均衡

參考:反向代理-銀行系統使用,在防火牆外面放代理服務器,在防火牆裏面放上真正的內容服務器

反向代理服務的核心工作主要是轉發HTTP請求,扮演了瀏覽器端和後臺Web服務器中轉的角色。因爲它工作在HTTP層(應用層),也就是網絡七層結構中的第七層,因此也被稱爲“七層負載均衡”。可以做反向代理的軟件很多,比較常見的一種是Nginx。
在這裏插入圖片描述
Nginx是一種非常靈活的反向代理軟件,可以自由定製化轉發策略,分配服務器流量的權重等。反向代理中,常見的一個問題,就是Web服務器存儲的session數據,因爲一般負載均衡的策略都是隨機分配請求的。

同一個登錄用戶的請求,無法保證一定分配到相同的Web機器上,會導致無法找到session的問題。解決方案主要有兩種:

a) 配置反向代理的轉發規則,讓同一個用戶的請求一定落到同一臺機器上(通過分析cookie),複雜的轉發規則將會消耗更多的CPU,也增加了代理服務器的負擔。
b) 將session這類的信息,專門用某個獨立服務來存儲,例如redis/memchache,這個方案是比較推薦的。

反向代理服務,也是可以開啓緩存的,如果開啓了,會增加反向代理的負擔,需要謹慎使用。這種負載均衡策略實現和部署非常簡單,而且性能表現也比較好。但是,它有“單點故障”的問題,如果掛了,會帶來很多的麻煩。而且,到了後期Web服務器繼續增加,它本身可能成爲系統的瓶頸。
3、DNS負載均衡

DNS(Domain Name System)負責域名解析的服務,域名url實際上是服務器的別名,實際映射是一個IP地址,解析過程,就是DNS完成域名到IP的映射。而一個域名是可以配置成對應多個IP的。因此,DNS也就可以作爲負載均衡服務。

這種負載均衡策略,配置簡單,性能極佳。但是,不能自由定義規則,而且,變更被映射的IP或者機器故障時很麻煩,還存在DNS生效延遲的問題。
4、CDN內容分發網絡 (DNS /GSLB負載均衡)

參考:CDN加速-內容分發網絡。我們常用的CDN(內容分發網絡)實現方式,其實就是在同一個域名映射爲多IP的基礎上更進一步,通過GSLB(Global Server Load Balance,全局負載均衡)按照指定規則映射域名的IP。一般情況下都是按照地理位置,將離用戶近的IP返回給用戶,減少網絡傳輸中的路由節點之間的跳躍消耗。

圖中的“向上尋找”,實際過程是LDNS(Local DNS)先向根域名服務(Root Name Server)獲取到頂級根的Name Server(例如.com的),然後得到指定域名的授權DNS,然後再獲得實際服務器IP。

CDN在Web系統中,一般情況下是用來解決大小較大的靜態資源(html/Js/Css/圖片等)的加載問題,讓這些比較依賴網絡下載的內容,儘可能離用戶更近,提升用戶體驗。

例如,我訪問了一張imgcache.gtimg.cn上的圖片(騰訊的自建CDN,不使用qq.com域名的原因是防止http請求的時候,帶上了多餘的cookie信息),我獲得的IP是183.60.217.90。

這種方式,和前面的DNS負載均衡一樣,不僅性能極佳,而且支持配置多種策略。但是,搭建和維護成本非常高。互聯網一線公司,會自建CDN服務,中小型公司一般使用第三方提供的CDN。
IP負載均衡

IP負載均衡服務是工作在網絡層(修改IP)和傳輸層(修改端口,第四層),比起工作在應用層(第七層)性能要高出非常多。原理是,他是對IP層的數據包的IP地址和端口信息進行修改,達到負載均衡的目的。這種方式,也被稱爲“四層負載均衡”。常見的負載均衡方式,是LVS(Linux Virtual Server,Linux虛擬服務),通過IPVS(IP Virtual Server,IP虛擬服務)來實現。
在這裏插入圖片描述
在負載均衡服務器收到客戶端的IP包的時候,會修改IP包的目標IP地址或端口,然後原封不動地投遞到內部網絡中,數據包會流入到實際Web服務器。實際服務器處理完成後,又會將數據包投遞迴給負載均衡服務器,它再修改目標IP地址爲用戶IP地址,最終回到客戶端。
在這裏插入圖片描述
上述的方式叫LVS-NAT,除此之外,還有LVS-RD(直接路由),LVS-TUN(IP隧道),三者之間都屬於LVS的方式,但是有一定的區別,篇幅問題,不贅敘。

IP負載均衡的性能要高出Nginx的反向代理很多,它只處理到傳輸層爲止的數據包,並不做進一步的組包,然後直接轉發給實際服務器。不過,它的配置和搭建比較複雜。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章