IRF網絡架構

數據中心網絡高可用架構

相比傳統的高可用技術,新技術的出現爲構建數據中心網絡的高可用架構提供了更優的部署方式。
一、 高可用性的定義
傳統意義上的可用性(AVAILABILITY )定義爲系統正常運行時間佔總運行時間的比例(當前的總運行時間包括出問題以後修復所耗費的時間)。高可用性由兩個基本概念組成:
  MTBF(Mean Time Between Failure),系統平均正常運行時間
  MTTR(Mean Time to Repair),系統平均恢復時間
  可用性的計算公式: AVAILABILITY = MTBF / ( MTBF + MTTR ) × 100%
可用性(每年) 故障時間(每年) 備註
98.000000% 7.3天
99.000000% 3.65天
99.900000% 8.76小時
99.990000% 52.56分鐘
99.999000% 5.256分鐘 即"5個9的可用性"
99.999900% 31.536秒
99.999990% 3.1537秒
99.999999% 0.31538秒
    表1. 以一年爲時間段的不同等級的可用性與一年內的總故障時間的對應關係表
網絡節點與網絡鏈路的故障無法完全避免,所以提升網絡可用性的重要方法之一是儘量降低系統的故障恢復時間。
二、 高可用技術
應用於數據中心傳統高可用技術主要包括:
物理設備:冗餘電源、冗餘風扇、冗餘主控、板卡支持熱插拔;
鏈路層面:以太網鏈路聚合(手工聚合、LACP);
二層多路徑:STP、MSTP、SmartLink;
三層多路徑:VRRP、ECMP、動態路由協議多路徑;
故障檢測:NQA、BFD、OAM、DLDP;
不間斷轉發:GR、熱補丁升級;
L4-L7多路徑:狀態熱備、非對稱路徑轉發;
在傳統的數據中心三層網絡結構中(如圖1所示),由於存在多設備多路徑冗餘,就會存在環路結構,因此MSTP/VRRP/OSPF等處理多路徑冗餘的協議部署至關重要。一般在數據中心的核心到匯聚層間部署OSPF等動態路由協議,在匯聚層網關設備上部署VRRP處理多網關冗餘,在匯聚層到接入層之間部署STP/MSTP解決二層網絡環路冗餘。當在匯聚層或核心層部署防火牆等基於4-7層的狀態處理設備時,同時需要在多臺設備間部署狀態熱備等特性。
爲了保證數據中心的設備和鏈路發生故障時業務流量能夠快速收斂,還需要部署NQA、BFD、OAM和DLDP等路徑檢測協議以降低故障檢測響應時間。同時可以部署GR等不間斷轉發協議協助動態路由協議在主備板切換情況下快速完成業務流量收斂。
在這裏插入圖片描述
圖1 傳統數據中心的高可用部署
新一代數據中心虛擬化網絡架構中(如圖2所示),通過IRF(Intelligent Resilient Framework)智能彈性架構技術將多臺網絡設備虛擬化成一臺設備,並將這些設備看作單一設備進行管理和使用。這種"聯合設備"被稱爲Fabric,組成Fabric的每臺設備爲一個Unit。IRF技術特性包含分佈式設備管理(Distributed Device Management,DDM)、分佈式彈性路由(Distributed Resilient Routing, DRR)和分佈式鏈路聚合(Distributed Link Aggregation, DLA)功能。
DDM:用戶可以將整個Fabric作爲一臺整體設備進行管理。通過連接到Fabric中任何一個端口、任何一個IP地址來管理整個Fabric,而不需要關心自己具體連接到了哪個Unit上。
DRR:Fabric的多個Unit在外界看來是一臺單獨的三層交換機。整個Fabric作爲一臺設備進行路由功能和報文轉發功能,具有統一的VLAN接口、路由表和三層轉發表。在某一個Unit發生故障時,路由協議和數據轉發不受影響,從而減少業務中斷。
DLA:用戶可以將Fabric中不同Unit的多個端口進行聚合,實現對Fabric內統一的聚合管理。這不僅可以使聚合的設置更加方便,而且跨越設備的鏈路聚合也有效地避免了單點故障的發生。
在這裏插入圖片描述
圖2 IRF組網結構示意圖
與傳統的L2/L3網絡設計相比,IRF技術構建的虛擬化網絡架構主要有四個優點:
運營管理簡化:網絡虛擬化能夠提高運營效率,虛擬化的每一層交換機組被邏輯化爲單管理點,包括配置文件和單一網關IP地址,無需VRRP。
整體無環設計:跨設備的鏈路聚合DLA創建了簡單的無環路拓撲結構,不再依靠生成樹協議(STP/SMTP)或動態路由協議進行環路冗餘路徑處理。虛擬交換組內部經由標準萬兆以太網接口相連,無需特殊電纜,在總體設計方面提供了靈活的部署能力。
進一步提高可用性:虛擬化能夠優化不間斷通信,當其中一臺虛擬交換機發生故障時,不再需要進行L2/L3重收斂,能快速實現業務通信流量的中斷恢復。
增強的可擴展性:與MSTP+VRRP設計收斂不同,通過虛擬化能在更短時間內完成確定性L2鏈路恢復,同時不影響L3鏈路。通過虛擬化能夠實現網絡各層的橫向擴展,有利於服務器羣的規模增大,設計更簡單,完全不影響網絡管理拓撲。各層之間通過增加捆綁鏈路單元即可平滑增加帶寬,靈活性極強。
三、 數據中心高可用架構

  1. 服務器接入
    服務器接入的高可用設計也就是服務器多網卡接入。爲了實現接入的高可用性,服務器通常採用多鏈路上行,即服務器採用兩塊或兩塊以上的網卡接入,服務器中的網絡驅動程序和高可用集羣軟件可將兩塊或者多塊網卡捆綁成一個虛擬的網卡,如果一個網卡失效,另一個網卡會接管它的MAC 地址,兩塊網卡使用同一個IP 地址,而且必須位於同一廣播域,即同一子網下。
    在這裏插入圖片描述
    圖3 服務器和接入交換機之間的連接方式
    服務器和接入交換機之間的連接方式(如圖3所示),標號從1至4,拓撲的可用性依次降低。標號1採用接入層框式雙機拓撲的網絡可用性最高,標號2的框式多板卡冗餘要比標號3的盒式多機冗餘拓撲可用性更高,而標號4中單機盒式設備雙網口冗餘的網絡可用性最低。因此推薦採用第1種接入方式,這種連接方式的服務器採用交換機容錯模式分別接入到兩臺機櫃式交換機上,並且將VLAN Trunk 到兩臺設備上,實現服務器的高可用接入。
  2. 接入層
    接入層到匯聚層共有4種連接方式,分別爲倒U型接法、U型接法、三角形接法和矩形接法,這裏所謂不同類型的接法是以二層鏈路作爲評判依據,比如說矩形接法,從接入到接入,接入到匯聚、匯聚到匯聚均爲二層鏈路連接,因此形成了矩形的二層鏈路接法。
    在這裏插入圖片描述
    圖4 接入層的高可用拓撲比較
    拓撲 優點 缺點
    1
    倒U型 不啓用STP,好管理
    VLAN 可以跨匯聚層交換機,服務器部署靈活 必須通過鏈路聚合保證高可用性
    匯聚交換機故障時,服務器不可達,無法實現高可用接入
    2
    U型 不啓用STP,好管理
    雙active鏈路,接入交換機密度高 不能使VLAN跨匯聚層,服務器部署不靈活
    接入交換機間鏈路故障,VRRP心跳報文無法傳遞,整機做VRRP主備切換,故障收斂時間長。
    3
    矩形 雙active鏈路,接入交換機密度高
    VLAN可以跨匯聚層交換機 有一半的接入層流量要通過匯聚交換機之間的鏈路。當接入交換機上行鏈路故障時,所有流量將從一側的交換機上行。收斂比變小,網絡易擁塞,降低網絡高可用性。
    4
    三角形 鏈路冗餘,路徑冗餘,故障收斂時間最短
    VLAN 可以跨匯聚層交換機,服務器部署靈活 接入交換機的密度小
    表2. 四種拓撲連接方式的對比
    由表2可以看出,三角形組網提供了更高的接入可用性以及更靈活的服務器擴展能力,所以常見推薦的組網採用第4種拓撲方式。
    需要指出,接入交換機直接雙上行與匯聚層設備相連,冗餘連接並不是越多越好,而最小的三角形環能夠提供最快的收斂速度和最高的可用性。例如圖5中右側圖組網拓撲在接入層交換機和匯聚層交換機之間採用全交叉冗餘,是一種過度冗餘組網,反而增加交換機的生成樹計算的複雜性以及故障排錯的複雜性,所以不建議按這種方式部署。
    在這裏插入圖片描述
    圖5 接入層推薦組網方式
  3. 路由層面
    傳統數據中心匯聚層到核心層間採用OSPF等動態路由協議進行路由層面高可用保障。常見連接方式一般分爲以下2種(見圖6):
    在這裏插入圖片描述
    圖6 路由高可用拓撲比較
    兩種組網拓撲實際部署中可根據需求而定,第一種"倒三角"式組網適合對網絡延遲較敏感,故障收斂速度要求較高的場景,缺點是網絡的複雜度與維護難度較高;第二種"口字形"結構適用於冗餘收斂要求較低場景,組網簡單易於維護,缺點是故障收斂較慢。與接入層組網類似,這裏不推薦使用全連接方式過度冗餘,同樣會導致組網設計的複雜度並增加排障難度。
  4. IRF高可用架構
    在這裏插入圖片描述
    圖7 IRF架構與傳統架構比較
    傳統架構服務器羣網絡拓撲與IRF架構服務器羣網絡拓撲相比(如圖7所示),對於接入層而言,傳統架構爲保證網絡高可用性通常採用服務器雙網卡接入+MSTP+VRRP,服務器通過雙網卡接入到兩臺交換機上,兩臺接入交換機採用雙歸屬三角形拓撲接入到匯聚交換機,接入交換機與匯聚交換機之間需要運行MSTP協議,管理和維護比較複雜。但當接入交換機和匯聚交換機都採用IRF架構之後,可將每兩臺交換機(也可以是多臺)配置成一個IRF堆疊組,兩臺匯聚交換機也配置成一個堆疊組,接入交換機與匯聚交換機之間通過捆綁鏈路連接。從邏輯上看,一個堆疊組就是一臺設備,因此接入交換機和匯聚交換機間不存在二層環路,可以避免MSTP的配置管理,簡化網絡設計。
    對於服務器的高可用接入方式,在IRF架構下,基本原則是服務器的雙網卡接在不同交換機上,從而實現高可用性接入。
    對於匯聚層交換機來說,設計方式與接入IRF是一致的,進行匯聚層交換機堆疊後,將兩層交換機用多條鏈路進行捆綁連接,一般原則建議爲偶數鏈路數,有利於將數據流量均衡到各鏈路。
    圖8給出了IRF二層接入設計下的HA考慮。基於虛擬化網絡交換結構,服務器流量經過網絡接入與匯聚層的路徑十分清晰,簡化爲單條邏輯鏈路轉發。對於情況B,當接入IRF架構的其中一臺交換機出現故障,服務器網卡進行切換,通過另一臺交換機即可恢復網絡通信,而匯聚層設備無需任何變化,數據流仍從同一聚合鏈路進入網絡。對情況C,匯聚層設備出現單臺故障,服務器不感知,只由接入交換機將流量轉發到聚合鏈路,匯聚層存活的交換機感知的仍是從現有聚合鏈路接收數據流。對於情況D,發生捆綁鏈路故障,交換機會將數據流轉發到捆綁組存活鏈路上,對於IRF交換機組來說,數據流轉的邏輯接口並未改變。
    在這裏插入圖片描述
    圖8 IRF接入層故障切換
    IRF對外體現爲一個整體交換系統,也存在由於意外原因導致IRF分裂的可能。RF分裂後,形成兩個或多個相同的邏輯設備:地址相同、配置相同,需要進行檢測和進一步處理以消除對網絡的影響。
    IRF系統作爲邏輯單臺設備,對外具有唯一的橋MAC(和三層MAC),IRF建立時,Master設備橋MAC同步到其它成員設備,分裂後,對於非Master所在系統,IRF中其它設備維持該橋MAC不變並選舉新的Master,此機制可避免當原Master故障時網絡中的鄰居設備重新學習MAC。但IRF也有比較靈活的橋MAC處理方式以便於組網變通,目前一共提供了三種用戶可以配置IRF系統MAC變化的方式:
    Master離開後,橋MAC立即變化
    保留6min變化
    始終不變
    IRF系統分裂後,會在網絡中形成兩組或多組"完全相同"的設備組,均有相同配置的Active Master,IRF附加了檢測和衝突處理,稱爲多Active檢測(Multi-Active Detection,簡稱MAD)。
    在這裏插入圖片描述
    圖9 IRF分裂檢測方式
    檢測:通過LACP(Link Aggregation Control Protocol,鏈路聚合控制協議)或者BFD(Bidirectional Forwarding Detection,雙向轉發檢測)協議來檢測網絡中是否存在多個從同一個IRF系統分裂出去的全局配置相同的IRF(如圖9所示)。
    LACP方式下,H3C進行了擴展開發,在LACP協議報文中增加IRF Master ID ,當系統分裂後,分裂後的IRF系統有各自的Active Master ID,可通過LACP進行傳遞檢測。
    BFD方式下,也通過在BFD中擴展Master ID來檢測衝突。
    衝突處理:IRF分裂後,系統會檢測到網絡中存在多個處於Active狀態相同的IRF。此時Master成員編號最小且處於Active狀態的IRF系統會繼續正常工作;Master成員編號較大且處於Active狀態的IRF系統會遷移到Recovery狀態,關閉該系統所有成員設備上除保留端口以外的其他全部物理端口。
    故障恢復:IRF系統通過日誌提示用戶修復IRF互聯鏈路,鏈路修復後,衝突的設備重新啓動恢復IRF系統,被Down掉的端口將重新恢復業務轉發。
    四、 結束語
    對數據中心而言,高可用性永遠是必不可少的重要需求。數據中心的核心是業務數據,網絡作爲承載層需要保證運行於其上的數據的安全性與可用性,尤其是在網絡節點鏈路發生故障情況下要確保業務可用與數據零丟失。從傳統的環路冗餘到現在的IRF堆疊,數據中心網絡高可用技術將會不斷優化進步,更好的滿足高速發展的數據中心業務應用需求。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章