【SDN】淺談數據中心網絡運維之異常泛洪流量分析及優化

原文鏈接:http://dc.idcquan.com/ywgl/158190.shtml

 

隨着IT技術的蓬勃發展,大數據雲計算及SDN等新興技術的使用已成爲未來數據中心建設新趨勢,這些技術在爲業務帶來快速投產、高冗餘度及高靈活性的同時,也在其部署的網絡環境中引入了多種新型封裝格式的數據包和大量的BUM類泛洪流量。而無論上層的應用架構如何變化,底層網絡基礎設施架構終究無法脫出經典網絡的二、三層轉發模式,在經典網絡的二、三層轉發模式中,網絡環境中就有會存在廣播、組播和未知單播泛洪等BUM流量。

一些必要的BUM流量如ARP解析、交換機MAC地址學習和防火牆、冗餘網關熱備份協議的組播心跳是網絡轉發所必需的行爲,而超過規劃可控範圍外的異常BUM流量會對網絡的整體轉發性能造成嚴重影響,今天我們就結合日常網絡運維工作實踐,來聊一聊基礎網絡運維中的網絡異常泛洪流量的發現、分析及優化。

EfUjErF

BUM類流量(指三類流量的簡稱,包括Broadcast廣播流量;Unknown Unicast未知單播流量;Multicast組播流量)是一把雙刃劍,數據中心級別網絡的正常運行及各系統冗餘架構的部署搭建離不開BUM類流量的支持。而由於數據中心接入環境的複雜性和服務器接入帶寬的差異性,過多的BUM類流量又可能會導致小帶寬接入服務器的網絡帶寬資源被佔滿而引起傳輸性能下降。因此我們需要詳細瞭解和區分哪些BUM流量是必需的,哪些BUM流量是異常的,要能夠區分正常與異常的BUM類流量,才能夠及時的控制和剔除異常BUM流量,保障數據中心網絡運行性能正常。下面我們就來看一下,哪些流量屬於正常的BUM類流量。

1.Broadcast廣播流量

①在數據中心網絡中,ARP是一類正常範疇的Broadcast廣播類流量,在網絡中,同一廣播域內的服務器、網關之間的通訊依靠MAC地址完成,而MAC地址一般情況下是唯一的,這樣不利於服務器的靈活利用。所以通常在賦予一個服務器功能角色的同時賦予其一個IP地址。ARP信息在網絡中主要負責進行ARP解析工作,即完成服務器到網關、服務器到服務器之間IP地址與MAC地址對應關係的解析,這樣在已知目標服務器IP地址的情況下,就可以通過ARP獲取目標服務器對應的MAC地址,再進一步完成通訊。因此,ARP流量在網絡中必不可少,也是保證網絡基礎通訊的重要流量信息。

②數據中心內部,啓用DHCP服務的網絡環境中,DHCP請求報文,也屬於一類正常範疇的Broadcast廣播類流量。啓用DHCP的終端將通過DHCP請求報文來獲取自己接入數據中心所需要的IP地址,並後續通過此IP地址進行互聯通訊;

2.UnknownUnicast未知單播流量

二層網絡環境中,未知單播流量是時刻存在的,這是一種單純的受網絡運行機制影響產生的泛洪類流量。在網絡交換機進行MAC地址學習的過程中,一旦收到目標MAC地址未在交換機本地CAM表中緩存的數據包,就會將此類數據包進行復制,繼而從本地交換機處於轉發狀態的接口轉發出去(收到數據包的接口不轉發),以完成未知目標MAC地址首次通訊。這裏我們根據未知單播類報文的特點就可以總結出一條規律:所有未知單播泛洪流量在產生時,始發泛洪的交換機的CAM表一定沒有被泛洪流量目標MAC地址的緩存。

7Rn2Y3r

3.Multicast組播流量

在目前的數據中心環境中,組播流量的應用場景不多,且大部分應用在網絡、系統、數據庫等環境的冗餘架構心跳、多活架構信息同步及網絡路由協議狀態監控等場景中。較爲常見的應用有冗餘網關熱備份協議心跳信息、防火牆心跳信息、F5多活心跳信息及OSPF等路由協議的心跳信息等。而這些心跳信息的目標組播地址均較爲固定,例如HSRP的目標組播地址爲224.0.0.2,OSPF的心跳信息目標組播地址爲224.0.0.5等;

上面瞭解到,數據中心網絡中應該存在的BUM類流量的類型和特點,作爲一名網絡運維工程師,下一步就需要針對網絡環境中的BUM類流量採取實時的監控手段,避免突發BUM流量對網絡類其它設備運行造成影響,需要建立實時監控系統,以便及時發現和處理網絡中的異常BUM類流量。

6BjYb2A

爲實時監控網絡同一廣播域內的異常BUM類流量,及時發現網絡中運行的異常BUM類流量。可針對BUM類流量的轉發特點,建立合理有效的監控手段,能夠有效的發現異常BUM流量,並對異常BUM流量進行及時的處置,避免大量的異常BUM流量對網絡整體的傳輸效率造成影響。

1.建立異常泛洪流量監測手段

爲及時發現網絡中可能存在的異常BUM流量,網絡團隊建立部署針對總行同城雙活數據中心的網絡異常流量監控系統,具備支撐整個網絡安全區域BUM流量的運營監控能力。其設計思路爲,利用BUM流量在全廣播域內泛洪的特點,在各個安全域中選取核心交換機Trunk Edge接口,將該區域中所有VLAN內的BUM流量全部通過該接口引流至流量採集網(不具備條件的單位可以直接引入到探針),由流量採集網內的探針服務器進行基線動態學習調整,結合上線後一段時間內不同區域網絡規模及業務流量分類和模型,考慮一些特殊的跨數據中心防火牆HA心跳同步數據,針對性的得到監控閥值,一般普通30個左右網段的區域正常泛洪流量在500Kbps以內,如果有區域內防火牆等HA心跳vlan,可能會在幾兆以內。

2.精細化網絡運維及持續優化

通過網絡異常流量監控系統,我們可以在第一時間掌握網絡異常情況,實時的對網絡中的異常BUM流量進行發現,並根據異常流量產生的基本原理做出流量來源初步判斷,其判斷依據和優化手段如下;

①實時發現超出BUM流量基線的異常BUM類流量,並可初步判斷異常BUM類流量是否會對其當前所在安全域的業務產生實時影響;

②通過流量採集網可獲取異常BUM類報文的詳細信息,包括報文中的源目MAC地址,源目IP地址,並可以此爲依據來進一步分析異常BUM報文的來源及產生原因;

③異常廣播及組播類流量:根據捕獲數據包內的詳細信息追溯至異常廣播流量發起源位置,並最終確認異常廣播流量產生原因;

④異常未知單播類流量:網絡中存在異常未知單播類流量通常均由網絡原因導致,上面已經介紹過,未知單播類流量產生的原因是因爲本地交換機沒有數據包目標MAC地址信息。那麼,具體未緩存數據包目標MAC地址的原因就需要進一步分析確認。

結合多年網絡運維實踐,出現未知單播泛洪的原因一般有以下6種:

交換機MAC地址老化時間早於交換機ARP老化時間;

交換機上的MAC地址被生成樹TC BPDU等異常刪除;

服務器配置靜態ARP綁定問題,導致數據包目的Mac交換機沒法正常學習,特別是當服務器網卡mac地址發生變化時候更容易出現大流量泛洪;

區域內服務器不主動發送數據包,一般爲單向接收數據包,例如監控syslog日誌服務器等UDP單向數據設備;

服務器或者交換機異常封裝不存在的mac地址,例如個別服務器在極端情況下會出現封裝全0mac地址的情況造成泛洪;

不對稱路由導致MAC地址學習異常,產生異常的未知單播泛洪流量;

⑤對於網絡中存在的可優化的BUM類報文發現異常及時進行網絡優化,以降低正常BUM類流量對網絡造成的性能影響;針對數據中心繫列交換機,由於該系列交換機中ARP的老化時間爲25分鐘,其ARP單播更新時間爲18分鐘,而MAC地址老化時間爲5分鐘,這樣就可能因MAC地址的快速老化而產生大量未知單播泛洪。爲避免此情況,我們調整交換機的MAC地址老化時間爲30分鐘(大於ARP老化時間25分鐘),這樣就可以在ARP單播更新的同時,同步完成MAC地址的更新,極大的減少了未知單播泛洪流量,提升了網絡轉發性能。

3.完善告警機制

未來我們將逐步完善網絡異常流量監控系統的告警機制,通過靈活的告警方法和監控點設置,達到更快捷、更準確的告警通告。將未知BUM報文監控接口的流量、計數器等內容全部納入統一監控,結合動態基線,實時分析進行異常預警,發送給網絡管理員,提升故障處置效率。

隨着業務的發展,數據中心網絡規模在持續擴大,給網絡運維管理帶來挑戰,運維場景日趨複雜;面對挑戰,網絡運維人員應該夯實技術基礎,充分掌握網絡技術經典理論,及時總結日常工作中碰到的疑難雜症,認真剖析、明確網絡優化和故障處置思路,進一步做好網絡運維工作。以上是我們針對網絡中異常BUM流量的初步分析和總結,請大家批評指正。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章