1 背景
1.1 雲計算成爲企業IT建設新形態
任何技術的產生,都有其特定的時代背景與實際需求,VXLAN正是爲了解決雲計算時代虛擬化中的一系列問題而產生的一項技術。
雲計算,憑藉其在系統利用率高、人力/管理成本低、靈活性/可擴展性強等方面表現出的優勢,已經成爲目前企業IT建設的新形態;而在雲計算中,大量的採用和部署虛擬化是一個基本的技術模式。
服務器虛擬化技術的廣泛部署,極大地增加了數據中心的計算密度;同時,爲了實現業務的靈活變更,虛擬機VM(Virtual Machine)需要能夠在網絡中不受限遷移(如圖1-1所示)。實際上,對於數據中心而言,虛擬機遷移已經成爲了一個常態性業務。
圖1-1 虛擬機遷移
1.2 傳統數據中心網絡面臨的挑戰
虛擬機數量的快速增長與虛擬機遷移業務的日趨頻繁,給傳統的“二層+三層”數據中心網絡帶來了新的挑戰:
l 虛擬機規模受網絡設備表項規格的限制
對於同網段主機的通信而言,報文通過查詢MAC表進行二層轉發。服務器虛擬化後,數據中心中VM的數量比原有的物理機發生了數量級的增長,伴隨而來的便是虛擬機網卡MAC地址數量的空前增加。此時,處於接入側的二層設備表示“我要Hold不住了”!
一般而言,接入側二層設備的規格較小,MAC地址表項規模已經無法滿足快速增長的VM數量。
l 傳統網絡的隔離能力有限
VLAN作爲當前主流的網絡隔離技術,在標準定義中只有12比特,也就是說可用的VLAN數量只有4000個左右。對於公有云或其它大型虛擬化雲計算服務這種動輒上萬甚至更多租戶的場景而言,VLAN的隔離能力顯然已經力不從心。
l 虛擬機遷移範圍受限
虛擬機遷移,顧名思義,就是將虛擬機從一個物理機遷移到另一個物理機,但是要求在遷移過程中業務不能中斷。要做到這一點,需要保證虛擬機遷移前後,其IP地址、MAC地址等參數維持不變。這就決定了,虛擬機遷移必須發生在一個二層域中。而傳統數據中心網絡的二層域,將虛擬機遷移限制在了一個較小的局部範圍內。
值得一提的是,通過堆疊、SVF、TRILL等技術構建物理上的大二層網絡,可以將虛擬機遷移的範圍擴大。但是,構建物理上的大二層,難免需要對原來的網絡做大的改動,並且大二層網絡的範圍依然會受到種種條件的限制。
2 VXLAN粉墨登場
傳統數據中心網絡的種種限制,推動了新技術的產生。於是,在VMware、Cisco等全球知名廠商的共同推動下,VXLAN粉墨登場。
2.1 VXLAN是什麼
VXLAN(Virtual eXtensible Local Area Network,虛擬擴展局域網),是由IETF定義的NVO3(Network Virtualization over Layer 3)標準技術之一,採用L2 over L4(MAC-in-UDP)的報文封裝模式,將二層報文用三層協議進行封裝,可實現二層網絡在三層範圍內進行擴展,同時滿足數據中心大二層虛擬遷移和多租戶的需求。
NVO3是基於三層IP overlay網絡構建虛擬網絡的技術的統稱,VXLAN只是NVO3技術之一。除此之外,比較有代表性的還有NVGRE、STT。
在回答VXLAN如何解決前面提到的問題之前,先讓我們來了解下VXLAN的網絡模型。
2.2 VXLAN網絡模型
圖2-1 VXLAN網絡模型
從上圖中可以發現,VXLAN網絡中出現了以下傳統數據中心網絡中沒有的新元素:
l VTEP(VXLAN Tunnel Endpoints,VXLAN隧道端點)
VXLAN網絡的邊緣設備,是VXLAN隧道的起點和終點,VXLAN報文的相關處理均在這上面進行。總之,它是VXLAN網絡中絕對的主角。VTEP既可以是一***立的網絡設備(比如華爲的CE系列交換機),也可以是虛擬機所在的服務器。那它究竟是如何發揮作用的呢?答案稍候揭曉。
l VNI(VXLAN Network Identifier,VXLAN 網絡標識符)
前文提到,以太網數據幀中VLAN只佔了12比特的空間,這使得VLAN的隔離能力在數據中心網絡中力不從心。而VNI的出現,就是專門解決這個問題的。VNI是一種類似於VLAN ID的用戶標示,一個VNI代表了一個租戶,屬於不同VNI的虛擬機之間不能直接進行二層通信。VXLAN報文封裝時,給VNI分配了足夠的空間使其可以支持海量租戶的隔離。詳細的實現,我們將在後文中介紹。
l VXLAN隧道
“隧道”是一個邏輯上的概念,它並不新鮮,比如大家熟悉的GRE。說白了就是將原始報文“變身”下,加以“包裝”,好讓它可以在承載網絡(比如IP網絡)上傳輸。從主機的角度看,就好像原始報文的起點和終點之間,有一條直通的鏈路一樣。而這個看起來直通的鏈路,就是“隧道”。顧名思義,“VXLAN隧道”便是用來傳輸經過VXLAN封裝的報文的,它是建立在兩個VTEP之間的一條虛擬通道。
2.3 見招拆招
看到這裏,愛思考的你肯定又要問了,VXLAN網絡模型爲什麼是長這個樣子滴?前文已經講到,VXLAN是爲了解決雲計算時代虛擬化中的一系列問題而產生的一項技術。下面就讓我們來看下,基於圖2-1的網絡模型,VXLAN是如何見招拆招來解決這一系列問題的。
l 招式一:隱形
對於“虛擬機規模受網絡設備表項規格的限制”這個問題,可能有人會想:換成規格大一些的接入交換機(比如跟核心或網關同檔次的設備)不就行了。我只能說,如果你是“壕”,確實可以這麼做。但是在不提高網絡建設成本的前提下,如何能解決問題呢?
既然無法提升設備表項規格,那就只能限制設備上的MAC表項,將大量VM的MAC地址“隱形”。那麼,如何做到隱形呢?這時,就該VTEP出場了。
VTEP會將VM發出的原始報文封裝成一個新的UDP報文,並使用物理網絡的IP和MAC地址作爲外層頭,對網絡中的其他設備只表現爲封裝後的參數。也就是說,網絡中的其他設備看不到VM發送的原始報文。
如果服務器作爲VTEP,那從服務器發送到接入設備的報文便是經過封裝後的報文,這樣,接入設備就不需要學習VM的MAC地址了,它只需要根據外層封裝的報文頭負責基本的三層轉發就可以了。因此,虛擬機規模就不會受網絡設備表項規格的限制了。
當然,如果網絡設備作爲VTEP,它還是需要學習VM的MAC地址。但是,從對報文進行封裝的角度來說,網絡設備的性能還是要比服務器強很多。
l 招式二:擴容
對於“傳統網絡的隔離能力有限”這個問題,VXLAN採用了“擴容”的解決方法,引入了類似VLAN ID的用戶標示,也就是前文提到的VNI。一個VNI代表了一個租戶,屬於不同VNI的虛擬機之間不能直接進行二層通信。VTEP在對報文進行VXLAN封裝時,給VNI分配了24比特的空間,這就意味着VXLAN網絡理論上支持多達16M(即:224-1)的租戶隔離。相比VLAN,VNI的隔離能力得到了巨大的提升,有效得解決了雲計算中海量租戶隔離的問題。
l 招式三:暗度陳倉
前面提到,爲了保證業務不中斷,VM的遷移就必須發生在同一個二層域內。現在,再回頭看下VXLAN網絡模型,你是不是驚奇地發現,有了VTEP的封裝機制和VXLAN隧道後,所謂的 “二層域”就可以輕而易舉的突破物理上的界限?也就是說,在IP網絡中, “明”裏傳輸的是跨越三層網絡的UDP報文,“暗”裏卻已經悄悄將源VM的原始報文送達目的VM。就好像在三層的網絡之上,構建出了一個虛擬的二層網絡,而且只要IP網絡路由可達,這個虛擬的二層網絡想做多大就做多大。現在,你應該明白爲什麼說VXLAN是一種NVO3技術了吧。
2.4 VXLAN報文長啥樣
看過上面的描述,你一定對於封裝後的VXLAN報文有了自己的想象。下面就讓我們來看下,VXLAN報文到底長啥樣。
圖2-2 VXLAN報文格式
如你所料,VTEP對VM發送的原始以太幀(Original L2 Frame)進行了以下“包裝”:
l VXLAN Header
增加VXLAN頭(8字節),其中包含24比特的VNI字段,用來定義VXLAN網絡中不同的租戶。此外,還包含VXLAN Flags(8比特,取值爲00001000)和兩個保留字段(分別爲24比特和8比特)。
l UDP Header
VXLAN頭和原始以太幀一起作爲UDP的數據。UDP頭中,目的端口號(VXLAN Port)固定爲4789,源端口號(UDP Src. Port)是原始以太幀通過哈希算法計算後的值。
l Outer IP Header
封裝外層IP頭。其中,源IP地址(Outer Src. IP)爲源VM所屬VTEP的IP地址,目的IP地址(Outer Dst. IP)爲目的VM所屬VTEP的IP地址。
l Outer MAC Header
封裝外層以太頭。其中,源MAC地址(Src. MAC Addr.)爲源VM所屬VTEP的MAC地址,目的MAC地址(Dst. MAC Addr.)爲到達目的VTEP的路徑上下一跳設備的MAC地址。
2.5 本章小結
本章中,我們介紹了VXLAN的概念、VXLAN網絡模型及VXLAN報文的封裝格式,瞭解了VXLAN技術是如何見招拆招解決雲計算時代虛擬化中的一系列問題的。看到這裏,相信你對於VXLAN已經有了初步的瞭解。
有了以上的理論基礎,想必你一定迫不及待的想進一步瞭解VXLAN的控制面及轉發面的工作原理,比如:
l VTEP如何確定跟誰建立VXLAN隧道?
l VXLAN隧道怎麼建立起來的?
l 原始報文如何知道要進入哪條隧道呢?
l VTEP是如何對報文進行封裝的呢?
下面我們就以CE系列交換機的實現爲例,逐一解答你的疑惑。
3 VXLAN報文轉發機制
3.1 建立VXLAN隧道
3.1.1 哪些VTEP間需要建立VXLAN隧道
圖3-1 建立VXLAN隧道示意圖(1)
如圖3-1所示,網絡中存在多個VTEP,那麼這其中哪些VTEP間需要建立VXLAN隧道呢?
如前所述,通過VXLAN隧道,“二層域”可以突破物理上的界限,實現大二層網絡中VM之間的通信。所以,連接在不同VTEP上的VM之間如果有“大二層”互通的需求,這兩個VTEP之間就需要建立VXLAN隧道。換言之,同一大二層域內的VTEP之間都需要建立VXLAN隧道。
例如,假設圖3-1中VTEP_1連接的VM、VTEP_2連接的VM以及VTEP_3連接的VM之間需要“大二層”互通,那VTEP_1、VTEP_2和VTEP_3之間就需要兩兩建立VXLAN隧道,如圖3-2所示。
圖3-2 建立VXLAN隧道示意圖(2)
3.1.2 什麼是“同一大二層域”
前面提到的“同一大二層域”,就類似於傳統網絡中VLAN(虛擬局域網)的概念,只不過在VXLAN網絡中,它有另外一個名字,叫做Bridge-Domain,簡稱BD。
我們知道,不同的VLAN是通過VLAN ID來進行區分的,那不同的BD是如何進行區分的呢?其實前面已經提到了,就是通過VNI來區分的。對於CE系列交換機而言,BD與VNI是1:1的映射關係,這種映射關係是通過在VTEP上配置命令行建立起來的。配置如下:
#
bridge-domain 10 //表示創建一個“大二層廣播域”BD,其編號爲10
vxlan vni 5000 //表示在BD 10下,指定與之關聯的VNI爲5000
#
VTEP會根據以上配置生成BD與VNI的映射關係表,該映射表可以通過命令行查看,如下所示:
<HUAWEI> display vxlan vni
Number of vxlan vni : 1
VNI BD-ID State
----------------------------------
5000 10 up
有了映射表後,進入VTEP的報文就可以根據自己所屬的BD來確定報文封裝時該添加哪個VNI。那麼,報文根據什麼來確定自己屬於哪個BD呢?
3.1.3 如何確定報文屬於哪個BD
這裏要先澄清下,VTEP只是交換機承擔的一個角色而已,只是交換機功能的一部分。也就是說,並非所有進入到交換機的報文都會走VXLAN隧道(也可能報文就是走普通的二三層轉發流程)。所以,我們在回答“如何確定報文屬於哪個BD”之前,必須先要回答“哪些報文要進入VXLAN隧道”。
3.1.3.1 哪些報文要進入VXLAN隧道
回答這個問題之前,不妨先讓我們想下VLAN技術中,交換機對於接收和發送的報文是如何進行處理的。我們知道,報文要進入交換機進行下一步處理,首先得先過接口這一關,可以說接口掌控着對報文的“生殺大權”。傳統網絡中定義了三種不同類型的接口:Access、Trunk、Hybrid。這三種類型的接口雖然應用場景不同,但他們的最終目的是一樣的:一是根據配置來檢查哪些報文是允許通過的;二是判斷對檢查通過的報***怎樣的處理。
其實在VXLAN網絡中,VTEP上的接口也承擔着類似的任務,只不過在CE系列交換機中,這裏的接口不是物理接口,而是一個叫做“二層子接口”的邏輯接口。類似的,二層子接口主要做兩件事:一是根據配置來檢查哪些報文需要進入VXLAN隧道;二是判斷對檢查通過的報***怎樣的處理。下面我們就來看下,二層子接口是如何完成這兩件事的。
在二層子接口上,可以根據需要定義不同的流封裝類型(類似於傳統網絡中不同的接口類型)。CE系列交換機目前支持三種不同的流封裝類型,分別是dot1q、untag和default,它們各自對報文的處理方式如表3-1所示。有了這張表,你就能明白哪些報文要進VXLAN隧道了。
表3-1 不同流封裝類型的接口對報文的處理方式
流封裝類型 |
允許進入VXLAN隧道的報文類型 |
報文進行封裝前的處理 |
收到VXLAN報文並解封裝後的處理 |
dot1q |
只允許攜帶指定VLAN Tag的報文進入VXLAN隧道。 (這裏的“指定VLAN Tag”是通過命令進行配置的) |
進行VXLAN封裝前,先剝掉原始報文的外層VLAN Tag。 |
進行VXLAN解封裝後: 若內層原始報文帶有VLAN Tag,則先將該VLAN Tag替換爲指定的VLAN Tag,再轉發; 若內層原始報文不帶VLAN Tag,則先將其添加指定的VLAN Tag,再轉發。 |
untag |
只允許不攜帶VLAN Tag的報文進入VXLAN隧道。 |
進行VXLAN封裝前,不對原始報***處理,即不添加任何VLAN Tag。 |
進行VXLAN解封裝後,不對原始報***處理,即不添加/不替換/不剝掉任何VLAN Tag。
|
default |
允許所有報文進入VXLAN隧道,不論報文是否攜帶VLAN Tag。 |
進行VXLAN封裝前,不對原始報***處理,即不添加/不替換/不剝掉任何VLAN Tag。 |
進行VXLAN解封裝後,不對原始報***處理,即不添加/不替換/不剝掉任何VLAN Tag。 |
VXLAN隧道兩端二層子接口的配置並不一定是完全對等的。正因爲這樣,纔可能實現屬於同一網段但是不同VLAN的兩個VM通過VXLAN隧道進行通信。
3.1.3.2 二層子接口加入BD
看了上面的描述,再來回答“如何確定報文屬於哪個BD”就非常簡單了。其實,只要將二層子接口加入指定的BD,然後根據二層子接口上的配置,就可以確定報文屬於哪個BD啦!
比如圖3-3所示的組網,我們可以分別在VTEP的兩個物理接口10GE 1/0/1和10GE 1/0/2上配置不同流封裝類型的二層子接口並將其分別加入不同的BD。
圖3-3 二層子接口加入BD
基於二層物理接口10GE 1/0/1,分別創建二層子接口10GE 1/0/1.1和10GE 1/0/1.2,且分別配置其流封裝類型爲dot1q和untag。配置如下:
#
interface 10GE1/0/1.1 mode l2 //創建二層子接口10GE1/0/1.1
encapsulation dot1q vid 10 //只允許攜帶VLAN Tag 10的報文進入VXLAN隧道
bridge-domain 10 //報文進入的是BD 10
#
interface 10GE1/0/1.2 mode l2 //創建二層子接口10GE1/0/1.2
encapsulation untag //只允許不攜帶VLAN Tag的報文進入VXLAN隧道
bridge-domain 20 //報文進入的是BD 20
#
基於二層物理接口10GE 1/0/2,創建二層子接口10GE 1/0/2.1,且流封裝類型爲default。配置如下:
#
interface 10GE1/0/2.1 mode l2 //創建二層子接口10GE1/0/2.1
encapsulation default //允許所有報文進入VXLAN隧道
bridge-domain 30 //報文進入的是BD 30
#
此時你可能會有這樣的疑問,爲什麼要在10GE 1/0/1上創建兩個不同類型的子接口?是否還可以繼續在10GE 1/0/1上創建一個default類型的二層子接口?換句話說,用戶應該如何選擇配置哪種類型的二層子接口?三種類型的二層子接口之間,是否存在配置約束關係?
3.1.3.3 各類型二層子接口的應用場景
我們先來解答下是否可以在10GE 1/0/1上再創建一個default類型的二層子接口。答案是不可以。其實根據表3-1的描述,這一點很容易理解。因爲default類型的二層子接口允許所有報文進入VXLAN隧道,而dot1q和untag類型的二層子接口只允許某一類報文進入VXLAN隧道。這就決定了,default類型的二層子接口跟其他兩種類型的二層子接口是不可以在同一物理接口上共存的。否則,報文到了接口之後如何判斷要進入哪個二層子接口呢。所以,default類型的子接口,一般應用在經過此接口的報文均需要走同一條VXLAN隧道的場景,即下掛的VM全部屬於同一BD。例如,圖3-3中VM3和VM4均屬於BD 30,則10GE 1/0/2上就可以創建default類型的二層子接口。
再來看下爲什麼可以在10GE 1/0/1上分別創建dot1q和untag類型的二層子接口。如圖3-3所示,VM1和VM2分別屬於VLAN 10和VLAN 20,且分別屬於不同的大二層域BD 10和BD 20,顯然他們發出的報文要進入不同的VXLAN隧道。如果VM1和VM2發出的報文在到達VTEP的10GE 1/0/1接口時,一個是攜帶VLAN 10的Tag的,一個是不攜帶VLAN Tag的(比如二層交換機上行連接VTEP的接口上配置的接口類型是Trunk,允許通過的VLAN爲10和20,PVID爲VLAN 20),則爲了區分兩種報文,就必須要在10GE 1/0/1上分別創建dot1q和untag類型的二層子接口。所以,當經過同一物理接口的報文既有帶VLAN Tag的,又有不帶VLAN Tag的,並且他們各自要進入不同的VXLAN隧道,則可以在該物理接口上同時創建dot1q和untag類型的二層子接口。
當然,現網中可能存在各種不同的組網,小編也不可能一一列舉出來。所以在實際應用中,請務必根據組網需求,結合表3-1,合理規劃二層子接口的流封裝類型。
3.1.4 VXLAN隧道怎麼建
現在,我們可以來看下VXLAN隧道是怎麼建立起來的了。
一般而言,隧道的建立不外乎手工方式和自動方式兩種。
l 手工方式
這種方式需要用戶手動指定VXLAN隧道的源和目的IP地址分別爲本端和對端VTEP的IP地址,也就是人爲的在本端VTEP和對端VTEP之間建立靜態VXLAN隧道。
對於CE系列交換機,以上配置是在NVE(Network Virtualization Edge)接口下完成的。配置過程如下:
#
interface Nve1 //創建邏輯接口NVE 1
source 1.1.1.1 //配置源VTEP的IP地址(推薦使用Loopback接口的IP地址)
vni 5000 head-end peer-list 2.2.2.2
vni 5000 head-end peer-list 2.2.2.3
#
其中,vni 5000 head-end peer-list 2.2.2.2和vni
5000 head-end peer-list 2.2.2.3的配置,表示屬於VNI
5000的對端VTEP有兩個,IP地址分別爲2.2.2.2和2.2.2.3。根據這兩條配置,VTEP上會生成如下所示的一張表:
<HUAWEI> display vxlan vni 5000 verbose
BD ID : 10
State : up
NVE : 288
Source : 1.1.1.1
UDP Port : 4789
BUM Mode : head-end
Group Address : -
Peer List : 2.2.2.2 2.2.2.3
根據上表中的Peer List,本端VTEP就可以知道屬於同一BD(或同一VNI)的對端VTEP都有哪些,這也就決定了同一大二層廣播域的範圍。當VTEP收到BUM(Broadcast&Unknown-unicast&Multicast,廣播&未知單播&組播)報文時,會將報文複製併發送給Peer List中所列的所有對端VTEP(這就好比廣播報文在VLAN內廣播)。因此,這張表也被稱爲“頭端複製列表”。當VTEP收到已知單播報文時,會根據VTEP上的MAC表來確定報文要從哪條VXLAN隧道走。而此時Peer List中所列的對端,則充當了MAC表中“出接口”的角色。在後面的報文轉發流程中,你將會看到頭端複製列表是如何在VXLAN網絡中指導報文進行轉發的。
l 自動方式
自動方式下VXLAN隧道的建立需要藉助於其他的協議,例如BGP。CE系列交換機中,自動方式建立VXLAN隧道主要應用在EVN(Ethernet Virtual Network)和VXLAN的分佈式網關場景中。本文不對該方式進行詳細講述,具體實現可參考EVN的相關資料。
3.1.5 如何確定報文要進哪條隧道
從前面的描述我們知道,屬於同一BD的VXLAN隧道可能不止一條,比如前面的頭端複製列表中,同一個源端VTEP(1.1.1.1)對應了兩個對端VTEP(2.2.2.2和2.2.2.3)。那就帶來了另一個問題,報文到底應該走哪一條隧道呢?
我們知道,基本的二三層轉發中,二層轉發依賴的是MAC表,如果沒有對應的MAC表,則主機發送ARP廣播報文請求對端的MAC地址;三層轉發依賴的是FIB表。在VXLAN中,其實也是同樣的道理。下面就讓我們來看下,VXLAN網絡中報文的轉發流程。相信看完下面的內容,關於“如何確定報文要進哪條隧道”的疑惑也就迎刃而解了。
3.2 VXLAN網絡中報文的轉發流程
3.2.1 同子網互通
圖3-4 同子網VM互通組網圖
如圖3-4所示,VM_A、VM_B和VM_C同屬於10.1.1.0/24網段,且同屬於VNI 5000。此時,VM_A想與VM_C進行通信。
由於是首次進行通信,VM_A上沒有VM_C的MAC地址,所以會發送ARP廣播報文請求VM_C的MAC地址。
下面就讓我們根據ARP請求報文及ARP應答報文的轉發流程,來看下MAC地址是如何進行學習的。
l ARP請求報文轉發流程
圖3-5 ARP請求報文轉發流程
如圖3-5所示,ARP請求報文的轉發流程如下:
VM_A發送源MAC爲MAC_A、目的MAC爲全F、源IP爲IP_A、目的IP爲IP_C的ARP廣播報文,請求VM_C的MAC地址。
VTEP_1收到ARP請求後,根據二層子接口上的配置判斷報文需要進入VXLAN隧道。確定了報文所屬BD後,也就確定了報文所屬的VNI。同時,VTEP_1學習MAC_A、VNI和報文入接口(Port_1,即二層子接口對應的物理接口)的對應關係,並記錄在本地MAC表中。之後,VTEP_1會根據頭端複製列表對報文進行復制,並分別進行封裝。
可以看到,這裏封裝的外層源IP地址爲本地VTEP(VTEP_1)的IP地址,外層目的IP地址爲對端VTEP(VTEP_2和VTEP_3)的IP地址;外層源MAC地址爲本地VTEP的MAC地址,而外層目的MAC地址爲去往目的IP的網絡中下一跳設備的MAC地址。
封裝後的報文,根據外層MAC和IP信息,在IP網絡中進行傳輸,直至到達對端VTEP。
報文到達VTEP_2和VTEP_3後,VTEP對報文進行解封裝,得到VM_A發送的原始報文。同時,VTEP_2和VTEP_3學習VM_A的MAC地址、VNI和遠端VTEP的IP地址(IP_1)的對應關係,並記錄在本地MAC表中。之後,VTEP_2和VTEP_3根據二層子接口上的配置對報文進行相應的處理並在對應的二層域內廣播。
VM_B和VM_C接收到ARP請求後,比較報文中的目的IP地址是否爲本機的IP地址。VM_B發現目的IP不是本機IP,故將報文丟棄;VM_C發現目的IP是本機IP,則對ARP請求做出應答。下面,讓我們看下ARP應答報文是如何進行轉發的。
l ARP應答報文轉發流程
圖3-6 ARP應答報文轉發流程
如圖3-6所示,ARP應答報文的轉發流程如下:
由於此時VM_C上已經學習到了VM_A的MAC地址,所以ARP應答報文爲單播報文。報文源MAC爲MAC_C,目的MAC爲MAC_A,源IP爲IP_C、目的IP爲IP_A。
VTEP_3接收到VM_C發送的ARP應答報文後,識別報文所屬的VNI(識別過程與步驟2類似)。同時,VTEP_3學習MAC_C、VNI和報文入接口(Port_3)的對應關係,並記錄在本地MAC表中。之後,VTEP_3對報文進行封裝。
可以看到,這裏封裝的外層源IP地址爲本地VTEP(VTEP_3)的IP地址,外層目的IP地址爲對端VTEP(VTEP_1)的IP地址;外層源MAC地址爲本地VTEP的MAC地址,而外層目的MAC地址爲去往目的IP的網絡中下一跳設備的MAC地址。
封裝後的報文,根據外層MAC和IP信息,在IP網絡中進行傳輸,直至到達對端VTEP。
報文到達VTEP_1後,VTEP_1對報文進行解封裝,得到VM_C發送的原始報文。同時,VTEP_1學習VM_C的MAC地址、VNI和遠端VTEP的IP地址(IP_3)的對應關係,並記錄在本地MAC表中。之後,VTEP_1將解封裝後的報文發送給VM_A。
至此,VM_A和VM_C均已學習到了對方的MAC地址。之後,VM_A和VM_C將採用單播方式進行通信。單播報文的封裝與解封裝過程,與圖3-6中所展示的類似,本文就不再贅述啦!
3.2.2 不同子網互通
圖3-7 不同子網VM互通組網圖
如圖3-7所示,VM_A和VM_B分別屬於10.1.10.0/24網段和10.1.20.0/24網段,且分別屬於VNI 5000和VNI 6000。VM_A和VM_B對應的三層網關分別是VTEP_3上BDIF 10和BDIF 20的IP地址。VTEP_3上存在到10.1.10.0/24網段和10.1.20.0/24網段的路由。此時,VM_A想與VM_B進行通信。
BDIF接口的功能與VLANIF接口類似,是基於BD創建的三層邏輯接口,用以實現不同子網VM之間或VXLAN網絡與非VXLAN網絡之間的通信。
由於是首次進行通信,且VM_A和VM_B處於不同網段,VM_A需要先發送ARP廣播報文請求網關(BDIF 10)的MAC,獲得網關的MAC後,VM_A先將數據報文發送給網關;之後網關也將發送ARP廣播報文請求VM_B的MAC,獲得VM_B的MAC後,網關再將數據報文發送給VM_B。以上MAC地址學習的過程與同子網互通中MAC地址學習的流程一致,不再贅述。現在假設VM_A和VM_B均已學到網關的MAC、網關也已經學到VM_A和VM_B的MAC,下面就讓我們看下數據報文是如何從VM_A發送到VM_B的。
圖3-8 不同子網VM互通報文轉發流程
如圖3-8所示,數據報文從VM_A發送到VM_B的流程如下:
VM_A先將數據報文發送給網關。報文的源MAC爲MAC_A,目的MAC爲網關BDIF 10的MAC_10,源IP地址爲IP_A,目的IP爲IP_B。
VTEP_1收到數據報文後,識別此報文所屬的VNI(VNI 5000),並根據MAC表項對報文進行封裝。可以看到,這裏封裝的外層源IP地址爲本地VTEP的IP地址(IP_1),外層目的IP地址爲對端VTEP的IP地址(IP_3);外層源MAC地址爲本地VTEP的MAC地址(MAC_1),而外層目的MAC地址爲去往目的IP的網絡中下一跳設備的MAC地址。
封裝後的報文,根據外層MAC和IP信息,在IP網絡中進行傳輸,直至到達對端VTEP。
報文進入VTEP_3,VTEP_3對報文進行解封裝,得到VM_A發送的原始報文。然後,VTEP_3會對報***如下處理:
l VTEP_3發現該報文的目的MAC爲本機BDIF 10接口的MAC,而目的IP地址爲IP_B(10.1.20.1),所以會根據路由表查找到IP_B的下一跳。
l 發現下一跳爲10.1.20.10,出接口爲BDIF 20。此時VTEP_3查詢ARP表項,並將原始報文的源MAC修改爲BDIF 20接口的MAC(MAC_20),將目的MAC修改爲VM_B的MAC(MAC_B)。
l 報文到BDIF 20接口時,識別到需要進入VXLAN隧道(VNI 6000),所以根據MAC表對報文進行封裝。這裏封裝的外層源IP地址爲本地VTEP的IP地址(IP_3),外層目的IP地址爲對端VTEP的IP地址(IP_2);外層源MAC地址爲本地VTEP的MAC地址(MAC_3),而外層目的MAC地址爲去往目的IP的網絡中下一跳設備的MAC地址。
封裝後的報文,根據外層MAC和IP信息,在IP網絡中進行傳輸,直至到達對端VTEP。
報文到達VTEP_2後,VTEP_2對報文進行解封裝,得到內層的數據報文,並將其發送給VM_B。
VM_B迴應VM_A的流程與上述過程類似,本文就不再贅述啦!
VXLAN網絡與非VXLAN網絡之間的互通,也需要藉助於三層網關。其實現與圖3-8的不同點在於報文在VXLAN網絡側會進行封裝,而在非VXLAN網絡側不需要進行封裝。報文從VXLAN側進入網關並解封裝後,就按照普通的單播報文發送方式進行轉發
3.3 本章小結
本章主要介紹了VXLAN控制面表項的建立過程及VXLAN網絡中報文的轉發過程。看到這裏,
相信你對於VXLAN已經達到熟悉的階段了。有了上面的理論基礎,接下來,我們可以來了解下VXLAN在現網中是如何部署的了。
4 VXLAN應用部署方式
本篇我們以下圖所示的典型的“Spine-Leaf”數據中心組網爲例,給大家介紹一下CE系列交換機VXLAN的應用場景和部署方案。
在上圖所示的數據中心裏,企業用戶擁有多個部門(部門1和部門2),每個部門中擁有多個VM(VM1和VM3,VM2和VM4)。同部門的VM屬於同一個網段,不同部門的VM屬於不同的網段。用戶希望同一部門VM之間、不同部門VM之間,VM與Internet之間均可相互訪問。
4.1 VXLAN網絡的子網互通
4.1.1 相同子網互通
部署方案
如圖4-1所示,Leaf1和Leaf2作爲VXLAN網絡的VTEP,兩個Leaf之間搭建VXLAN隧道,並在每個Leaf上部署VXLAN二層網關,即可實現同一部門VM之間的相互通信。此時Spine只作爲VXLAN報文的轉發節點,不感知VXLAN隧道的存在,可以是任意的三層網絡設備。
圖4-1 相同子網互通
4.1.2 不同子網互通(集中式網關)
部署方案
如圖4-2所示,Leaf1、Leaf2和Spine作爲VXLAN網絡的VTEP,Leaf1和Spine之間、Leaf2和Spine之間分別搭建VXLAN隧道,並在Spine上部署VXLAN三層網關,即可實現不同部門VM之間的相互通信。
圖4-2 不同子網互通(集中式網關)
4.1.3 不同子網互通(分佈式網關)
出現背景
細心的讀者可能已經發現,在不同子網互通(集中式網關)中,同一Leaf(Leaf1)下掛的不同網段VM(VM1和VM2)之間的通信,都需要在Spine上進行繞行,這樣就導致Leaf與Spine之間的鏈路上,存在冗餘的報文,額外佔用了大量的帶寬。同時,Spine作爲VXLAN三層網關時,所有通過三層轉發的終端租戶的表項都需要在該設備上生成。但是,Spine的表項規格有限,當終端租戶的數量越來越多時,容易成爲網絡瓶頸。
分佈式網關的出現,很好的解決了這兩個問題。
部署方案
l 同Leaf節點下不同部門VM之間的通信
如圖4-3所示,Leaf1作爲VXLAN網絡的VTEP,在Leaf1上部署VXLAN三層網關,即可實現同Leaf下不同部門VM之間的相互通信。此時,VM1和VM2互訪時,流量只需要在Leaf1節點進行轉發,不再需要經過Spine節點,從而節約了大量的帶寬資源。
l 跨Leaf節點不同部門VM之間的通信
如圖4-3所示,Leaf1和Leaf2作爲VXLAN網絡的VTEP,在Leaf1和Leaf2上部署VXLAN三層網關。兩個VXLAN三層網關之間通過BGP動態建立VXLAN隧道,並通過BGP的remote-nexthop屬性發布本網關下掛的主機路由信息給其他BGP鄰居,從而實現跨Leaf節點不同部門VM之間的相互通信。
圖4-3 不同子網互通(分佈式網關)
Leaf作爲VXLAN三層網關時,只學習其下掛終端租戶的表項,而不必像集中式三層網關一樣,需要學習網絡中所有終端租戶的表項,從而解決了集中式三層網關帶來表項瓶頸問題。
4.2 VXLAN網絡的可靠性
隨着網絡的快速普及和應用的日益深入,基礎網絡的可靠性日益成爲用戶關注的焦點,如何能夠保證網絡傳輸不中斷對於終端用戶而言非常重要。
在VXLAN網絡的子網互通中,VM與Leaf之間,Leaf與Spine之間都是通過單歸方式接入的。這種組網接入方式,顯然已經不能滿足用戶對VXLAN網絡可靠性的需求。
這時,可以按照如下圖所示方式,提升VXLAN網絡的可靠性。
4.2.1 接入層的可靠性
通常採用堆疊(CSS)方式提升接入層的可靠性。這是因爲,接入層的設備數量繁多,堆疊方式可以將多臺交換機設備組合在一起,虛擬化成一臺交換設備,所有配置均在這一臺虛擬交換機上進行,從而簡化了接入層設備的運維複雜度。此外,堆疊系統內成員交換機之間在進行冗餘備份的同時,能夠利用跨設備的Eth-Trunk實現設備間鏈路的負載分擔。
圖4-4 接入層的可靠性
如圖4-4所示,Leaf1和Leaf2組建爲堆疊系統CSS-1,Leaf3和Leaf4組建爲堆疊系統CSS-2,VM1~VM4均通過雙歸的方式接入到各自的CSS系統中。CSS-1和CSS-2作爲VXLAN網絡的VTEP,兩個CSS之間搭建VXLAN隧道,並在每個CSS上部署VXLAN二層網關,從而實現同一部門VM之間的相互通信。
l 當CSS系統正常時,VM1與VM3之間互訪的流量,通過CSS-1堆疊系統中的Leaf1和Leaf2進行負載分擔轉發。
l 當CSS系統故障時(Leaf1故障),VM1與VM3之間互訪的流量,全部切換到CSS-1堆疊系統中的Leaf2進行轉發,從而實現了流量的不間斷,提升了接入層的可靠性。
4.2.2 核心層的可靠性
通常採用多活網關方式提升核心層的可靠性。這是因爲,核心層設備物理位置較爲分散,傳統的設備級備份無法滿足要求,必須通過協議級備份來實現。
在多活網關組網中,通過給多臺Spine設備部署相同的網關信息,將它們對外模擬成VXLAN網絡中的一個虛擬VTEP,然後在所有Spine設備上配置三層網關,使得無論流量發到哪一個Spine,該設備都可以提供服務,將報文正確轉發給下一跳設備。此外,多活網關中的多臺Spine之間形成負載分擔關係,共同進行流量轉發。
圖4-5 核心層的可靠性
如圖4-5所示,Spine1、Spine2分別與接入層的堆疊系統CSS-1和CSS-2之間建立VXLAN隧道,在Spine1、Spine2上配置VXLAN三層網關功能,Spine1、Spine2上部署相同的網關MAC地址、網關IP地址以及源VTEP地址,以便對外模擬成一個虛擬的VTEP,從而實現了不同網段VM之間、VM與外網之間的互通。
l 當多活網關係統正常時,VM1與VM4之間互訪的流量、VM1與Internet之間互訪的流量,通過Spine1和Spine2進行負載分擔轉發。
l 當多活網關係統故障時(Spine1故障),VM1與VM4之間互訪的流量、VM1與Internet之間互訪的流量,全部切換到Spine2進行轉發,從而實現了流量的不間斷,提升了核心層的可靠性。
4.3 VXLAN網絡的部署方案
CE系列交換機支持通過單機方式和控制器方式來部署VXLAN網絡。這兩種方式中VXLAN網絡的子網互通以及VXLAN網絡的可靠性的實現均與前面一致,不同點在於VXLAN的配置下發方式不同:單機方式是通過CLI手動在設備上進行配置,控制器方式是通過控制器向設備下發配置或流表,設備僅作爲轉發器。
下面小編以圖4-6所示組網爲例,簡單介紹一下當前CE系列交換機支持的VXLAN控制器部署方式:SNC控制器方式和AC控制器方式。
圖4-6 控制器部署方案
l SNC控制器方式
SNC控制器方式是指通過SNC控制器動態建立VXLAN隧道。
此方式下,CE系列交換機作爲轉發器,無需進行VXLAN配置。VXLAN隧道的創建以及指導報文轉發的表項,均由SNC控制器通過OpenFlow協議向轉發器下發。
l AC控制器方式
AC控制器方式是指通過AC控制器動態建立VXLAN隧道。
此方式下,CE系列交換機作爲轉發器,需要預先完成部分基礎配置(具體配置內容請參考產品配置指南),AC控制器通過NETCONF協議向轉發器下發建立VXLAN隧道的配置,通過OpenFlow協議控制報文在隧道中的轉發。
5 尾言
本篇內容,我們通過介紹VXLAN出現的時代背景、VXLAN的概念及網絡模型、VXLAN報文的封裝格式,讓你對VXLAN有了初步的瞭解;通過介紹VXLAN隧道的建立及報文的轉發流程,讓你熟悉了VXLAN的控制面及轉發面的工作機制;通過介紹CE系列交換機VXLAN的應用場景和部署方案,讓你進一步瞭解VXLAN技術在現網中是如何運用的。
總之,VXLAN通過MAC-in-UDP的報文封裝,實現了二層報文在三層網絡上的透傳,在雲端上架起了一道道無形的“彩虹”,解決了雲計算中虛擬化帶來的一系列問題。