Neutron的基本原理與代碼實現

大家好,很高興今天能與大家分享一些Neutron的知識。今天分享的思路是:Openstack網絡基礎、Neutron的軟件實現、Nova虛擬機啓動時的網絡處理以及OVS流表分析。

一、Openstack網絡基礎

下面對Openstack和Neutron的介紹,要從幾個關鍵詞入手。

1. 三代網絡

在網絡這一口,OpenStack經歷了由nova-network到Quantum再到Neutron的演進過程。我們直觀地來看看三代網絡的對比分析:

 

出現

版本

支持組

網模式

優點

缺點

適用場景

Nova-network 早期
  • Flat
  • Flat Dhcp
  • VLAN
  • 性能出色
  • 工作穩定
  • 支持multi-host部署

以實現HA

  • 網絡管理不獨立
  • 功能不夠靈活
  • 組網方式受限
對性能和穩定性要求比較高;中小規模網絡;網絡運維成本有限;私有云環境
Quantum Folsom
  • Flat
  • Flat Dhcp
  • VLAN
  • Overlay
  • 獨立的網絡管理
  • 支持大二層
  • 支持多廠商插件
  • 缺乏HA機制
  • 各廠商插件無法

共同運行

基本上已經都跟進到了Neutron
Neutron Havana
  • Flat
  • Flat Dhcp
  • VLAN
  • Overlay
  • 繼承了Quantum的優點
  • 功能上更爲豐富
  • 網絡兼容性強
  • 開始引入SDN的思想
  • 代碼結構複雜
  • 工作不夠穩定
  • HA機制仍缺乏大規模商用的檢驗
對功能要求比較多或希望向SDN演進;大規模網絡或對可擴展性要求高;有專業的網絡運維團隊;公有云環境
  • Nova-network是隸屬於nova項目的網絡實現,它利用了linux-bridge(早期,目前也支持OVS)作爲交換機,具備Flat、Flat DHCP、VLAN三種組網模式。優點是性能出色,工作穩定,支持multi-host部署以實現HA;缺點是網絡模塊不獨立,功能不夠靈活,組網模式也比較受限。
  • Quantum作爲獨立的網絡管理項目出現在F版本,除了linux-bridge外還支持OVS,以及以及其他商業公司的插件,組網模式上增加了對GRE和VxLAN兩個Overlay技術的支持。優點是功能靈活,支持大二層組網;缺點是集中式的網絡節點缺乏HA,而且各廠商插件無法同時在底層網絡中運行。
  • Neutron出現在H版本,由來是Quantum和一家公司的名稱衝突而改名。Neutron對Quantum的插件機制進行了優化,將各個廠商L2插件中獨立的數據庫實現提取出來,作爲公共的ML2插件存儲租戶的業務需求,使得廠商可以專注於L2設備驅動的實現,而ML2作爲總控可以協調多廠商L2設備共同運行。Neutron繼承了Quantum對大二層的支持,還支持L2 PoP,DVR,VRRP,HA等關鍵功能,集成了很多L4-L7的網絡服務,一些blueprint也正在積極開發中,如SFC等。優點是開始引入SDN思想,功能上更爲豐富,網絡兼容性強;缺點是代碼結構複雜,工作不夠穩定,HA機制仍缺乏大規模商用的檢驗。

從應用場景來看,Nova-network組網模式過於簡單,一些複雜的網絡需求無法實現(比如兩個公司合併,有大量IP重合的VM要遷移到一個平臺,而且要求遷移後都要用原來的IP)。不過由於其簡單穩定的特點,仍適合於中小型企業的生產環境;Quantum的實際部署目前基本都跟進到了Neutron;Neutron的大二層組網,適合於雲計算規模的生產環境,但是由於分佈式和HA機制仍不夠成熟,因此目前多見於私有云和小規模共有云的部署,大規模的公有云仍然難以使用Neutron實現。

2. 四種組網模型

說完了基本特徵與應用場景,下面開始對上述提到的一些網絡問題進行詳細的描述。我們拋開技術,結合圖例來抽象地看看不同的組網模型。當然,以下模型的實現不僅僅侷限於三張圖中的方式。

  • Flat模型最爲簡單,所有的虛擬機共用一個私有IP網段,IP地址在虛擬機啓動時完成注入,虛擬機間的通信直接通過HyperVisor中的網橋轉發,公網流量在該網段的網關上進行NAT(Nova-network實現爲開啓nova-network主機內核的iptables,Neutron實現爲網絡節點上的l3-agent)。Flat DHCP模型與Flat區別在於網橋中開啓了DHCP進程,虛擬機通過DHCP消息獲得IP地址(Nova-network實現爲nova-network主機中的dnsmaq,Neutron實現爲網絡節點上的dhcp-agent)。

  • VLAN模型引入了多租戶機制,虛擬機可以使用不同的私有IP網段,一個租戶可以擁有多個IP網段。虛擬機IP通過DHCP消息獲取IP地址(Nova-network實現爲nova-network主機中的dnsmaq,Neutron實現爲網絡節點上的dhcp-agent)。網段內部虛擬機間的通信直接通過HyperVisor中的網橋轉發,同一租戶跨網段通信通過網關路由,不同租戶通過網關上的ACL進行隔離,公網流量在該網段的網關上進行NAT(Nova-network實現爲開啓nova-network主機內核的iptables,Neutron實現爲網絡節點上的l3-agent)。如果不同租戶邏輯上共用一個網關,則無法實現租戶間IP地址的複用。

  • Overlay模型(主要包括GRE和VxlAN隧道技術),相比於VLAN模型有以下改進。1)租戶數量從4K增加到16million;2)租戶內部通信可以跨越任意IP網絡,支持虛擬機任意遷移;3)一般來說每個租戶邏輯上都有一個網關實例,IP地址可以在租戶間進行復用;4)能夠結合SDN技術對流量進行優化。

3. 三類節點和三類網絡

看過抽象的組網模型,下面我們來介紹組網具體的實現技術。下面的介紹都是針對Neutron的,對nova-network和Quantum將不做討論。

  • 3類節點——管理節點:實現鏡像、塊存儲、身份認證、前端等服務,運行nova-compute的調度模塊以及nova api-server;計算節點:實現nova-compute,以及neutron的各種agent(一般不包括l3-agent,DVR除外);網絡節點,:實現neutron各種agent。注意,由於OpenStack爲分佈式架構實現,因此neutron-server既可以運行在控制節點,也可以運行在網絡節點。
  • 3種網絡——OpenStack內部模塊之間的交互發生在管理網絡,虛擬機之間的通信發生在數據網絡,而External Network/API Network網絡是連接外網的,無論是用戶調用Openstack API,還是虛擬機與外網間的互通都需要經過這個網絡。


目前OpenStack通常採用out-of-bound方式進行部署,管理網絡與另外兩個網絡是獨立的,管理節點上一般也不會承載Openstack的業務流量,下面的分析中網絡只涉及數據網絡與External Network/API Network網絡,節點只涉及計算節點和網絡節點。

4. 兩張圖例

有了以上知識作爲基礎,就可以來分析Openstack中的網絡通信了。由於OpenStack中容器的通信機制目前尚不成熟,並且有專門的項目Kuryr去實現容器相關網絡技術,以下內容將不涉及OpenStack中的容器通信。

以下將通過兩張圖來分析Neutron中的VLAN組網模型,HyperVisor中的網絡設備以OpenvSwitch爲例。這三張圖中每一個信息都是有用的,把這些信息完全弄懂了,Neutron的組網也就能基本掌握了,Overlay模型與VLAN模型的區別只在於將圖中的br-eth1替換成br-tun即可,具體隧道如何進行封裝,稍後我們再詳細介紹。

第一張圖是計算節點上的網絡實現。以虛擬機發出流量方向爲例,從虛擬機處開始分析:

1)流量經由虛擬機IP內核交給虛擬網卡處理,虛擬網卡由TAP軟件實現,TAP允許用戶態程序向內核協議棧注入數據,它可以運行於虛擬機操作系統之上,能夠提供與硬件以太網卡完全相同的功能。

2)TAP設備並不是直接連接到OVS上的,而是通過linux bridge中繼到ovs br-int上,其原因在於ovs無法實現linux bridge中一些帶狀態的iptables規則,而這些規則往往用於以虛擬機爲單位的安全組(security group)功能的實現。qbr是quantum bridge的縮寫,Neutron中沿用了Quantum的叫法。

3)linux bridge與ovs br int間的連接通過veth-pair技術實現,qvb代表quantum veth bridge,qvo代表quantum veth ovs。veth-pair用於連接兩個虛擬網絡設備,總是成對出現以模擬虛擬設備間的數據收發,其原理是反轉通訊數據的方向,需要發送的數據會被轉換成需要收到的數據重新送入內核網絡層進行處理。veth-pair與tap的區別可以簡單理解爲veth-pair是軟件模擬的網線,而tap是軟件模擬的網卡。

4)ovs br-int是計算節點本地的虛擬交換設備,根據neutron-server中OVS Plugin的指導,完成流量在本地的處理:本地虛擬機送入的流量被標記本地VLAN tag,送到本地虛擬機的流量被去掉本地VLAN tag,本地虛擬機間的2層流量直接在本地轉發,本地虛擬機到遠端虛擬機、網關的流量由int-br-eth1送到ovs br-eth1上(在Overlay模型中送到ovs br-tun上)。注意,無論是VLAN模型還是Overlay模型,由於br-int上VLAN數量的限制,計算節點本地最多支持4K的租戶。

5)ovs br-int與ovs br-eth1間的連接通過veth-pair技術實現。

6)ovs br-eth1將該計算節點與其他計算節點、網絡節點連接起來,根據neutron-server中OVS Plugin的指導,完成流量送出、送入本地前的處理:根據底層物理網絡租戶VLAN與本地租戶VLAN間的映射關係進行VLAN ID的轉換(Overlay模型中此處進行隧道封裝,並進行VNI與本地租戶VLAN ID間的映射)。由於底層物理網絡中VLAN數量的限制,VLAN模型最多支持4K的租戶,而Overlay模型中,24位的VNI最多支持16million的租戶。

7)ovs br-eth1直接關聯物理宿主機的硬件網卡eth1,通過eth1將數據包送到物理網絡中。Overlay模型中ovs br-tun通過TUN設備對數據包進行外層隧道封裝並送到HyperVisor內核中,內核根據外層IP地址進行選路,從硬件網卡eth1將數據包送到物理網絡中。TUN與TAP的實現機制類似,區別在於TAP工作在二層,而TUN工作在三層。

第二張圖是網絡節點上的網絡實現,以流量流入網絡節點方向爲例,從底層物理網絡流量通過eth1進入ovs br-eth1(Overlay模型中爲ovs br-tun)開始分析:

1)ovs br-eth1將網絡節點與計算節點連接起來,根據neutron-server中OVS Plugin的指導,完成流量送入網絡節點前的處理:根據底層物理網絡租戶VLAN與本地租戶VLAN間的映射關係進行VLAN ID的轉換(Overlay模型中此處進行解封裝,並進行VNI與本地租戶VLAN ID間的映射)。注意,雖然同一租戶在底層物理網絡上的VLAN ID(Overlay模型中爲VNI)唯一,但是在網絡節點與計算節點,不同計算節點中同一租戶對應的本地VLAN ID可能有所不同。另外由於網絡節點也要在ovs br-int上使用本地VLAN,而租戶跨網段流量與公網流量都要經過網絡節點,因此使用單個網絡節點時,Neutron最多能支持4K租戶,可採用部署多個網絡節點的方式來解決這一問題。

2)送入網絡節點的流量,由ovs br-eth1(ovs br-tun)通過veth-pair送給ovs br-int,ovs br-int連接了本地不同的namespace,包括實現dhcp功能的dhcp-agent——dnsmasq,以及實現路由功能的l3-agent——router。Dnsmasq負責給對應租戶的虛擬機分配IP地址,而router負責處理租戶內跨網段流量以及公網流量。不同的租戶有不同的dnsmasq和router實例,因此不同租戶間可以實現IP地址的複用。

3)Router namesapce通過qr接口(Quantum Router)接收到租戶內跨網段流量以及公網流量,在ns的IP內核中對跨網段流量進行路由,改寫MAC地址並通過相應的qr接口向ovs br-int送出數據包。在ns的IP內核中對公網流量進行NAT,並通過qg接口(Quantum Gateway)發送給ovs br-ex。

4)Ovs br-ex通過關物理聯宿主機的硬件網卡eth1將流量送至Internet路由器。

5)上述兩幅圖中,ovs br-int與ovs br-ex間有直連,據說主要是防止l3-agent出現問題時能夠保證流量不中斷,但實際上看來很少出現此問題。

5. Neutron網絡全家福


上圖是在網上看過的更加細緻,更爲全面的一張圖(http://blog.csdn.net/canxinghen/article/details/46761591#comments),圖中清晰地展示了Neutron對多種L2技術(VLAN、VxLAN、GRE)共同運行的支持。圖中的mellonax是intel等硬件廠商搞出的具備轉發功能的網卡,能夠避免虛擬交換機帶來的資源消耗,並能夠加快轉發速率。一塊這樣的網卡能虛擬出63個VF,每個VF就好像一個獨立的物理網卡一樣,通過將VF直接掛到虛擬機上,能夠實現轉發性能的大幅度提高。

以上介紹了OpenStack中網絡組件的演進,以及Neutron組網的基本原理。下面我們將對Neutron的軟件實現進行簡單的介紹。

二、Nova虛擬機啓動時的網絡處理

設備啓動了,網絡有了,可是現在還沒有虛擬機。下面我們來看看nova虛擬機啓動時的網絡處理過程。

從頭開始講。虛擬機的啓動通常來自於控制節點命令行的nova boot,該命令被組裝成REST API送到nova-api。Nova-api與neutron-server乾的是一樣的活:接收REST請求,調nova-scheduler跑一些調度機制,計算出虛擬機部署的位置,然後通過rpc與相應計算節點上的agent——nova-compute進行通信,而啓動虛擬機的實際工作由nova-compute完成。

當然,以上過程與網絡並沒有發生什麼關係,這裏不做深入分析,大家要是有興趣可參考http://www.linuxqq.net/archives/1277.html

假定nova-compute已經通過rpc收到了開始幹活的命令,我們就從這裏開始漫長的代碼分析。在此之前,先來看一看OpenStack組件層面的調用流程。這裏借用OpenStack大神SammyLiu的一張圖吧,圖中1-6步驟依次做了這麼幾件事:

  • Nova-compute向neutron-server請求虛擬機對應的Port資源。
  • Neutron-server根據neutron-database生成Port資源。
  • Neutron-server通知Dhcp agent虛擬機信息。
  • Dhcp agent將虛擬機信息通知給dhcp server。
  • 虛擬機接入並啓動。
  • 虛擬機從dhcp server處獲得IP地址。


最後一步就是傳統的dhcp的交互過程,這裏就不講了,下面來看1-5的實現。時間有限,代碼不再一步步回溯了,詳見SDNLAB“網絡虛擬化”專題的後續文章,這裏給出代碼的主體思路。

  • Nova-compute向neutron-server發送create_port的REST API請求,生成新的Port資源。
  • Neutron-server收到該REST請求,通過APIRouter路由到ML2的create_port方法。該方法中,獲得了neutron-database新生成的Port,並通知ML2 Mechanism Driver該Port的生成。
  • Nova-compute向neutron發送update_port的REST API請求,
  • Neutron-server收到該REST請求,通過APIRouter路由到ML2的update_port方法。該方法中,在neutron-database更新該Port的狀態,並根據ML2 Mechanism Driver的不同,決定後續的處理:若Mechanism Driver爲hyperv/linuxbridge/ofagent/openvswitch,則需要通過ML2的update_port方法中執行rpc遠程調用update_port;對於其餘的Mechanism Driver,ML2的update_port方法調用其的update_port_postcommit方法進行處理,這些Mechanism Driver可能使用非rpc方式與自身的agent通信(如REST API、Netconf等)。
  • ML2執行完update_port方法後,Port資源在wsgi中對應的Controller實例通過DhcpAgentNotifyAPI實例rpc通知給網絡節點上的dhcp agent(也可能通過一些調度機制通知給分佈在計算節點上的dhcp agent)。
  • Dhcp agent收到該rpc通知,通過call_driver方法將虛擬機MAC與IP的綁定關係傳遞給本地的DHCP守護進程Dnsmaq。
  • Nova-compute通過libvirt driver的spawn方法將虛擬機接入網絡,然後啓動虛擬機。

到這裏,虛擬機啓動過程中的網絡處理就都結束了,虛擬機間就可以開始通信了。下面開始介紹Neutron中OVS的流表邏輯,看看OVS是怎麼支持虛擬機間的通信的。

三、Neutron的軟件實現

5. 5類Neutron組件

架構設計上, Neutron沿用了OpenStack完全分佈式的思想,各組件之間通過消息機制進行通信,使得Neutron中各個組件甚至各個進程都可以運行在任意的節點上,如下圖所示。這種微內核的架構使得開發者可以集中精力在網絡業務的實現上。目前Neutron提供了衆多的插件與驅動,基本上可以滿足各種部署的需要,如果這些還難以支撐實際所需的環境,則可以方便地在Neutron的框架下擴展插件或驅動。

  • Neutron-server可以理解爲一個專門用來接收Neutron REST API調用的服務器,然後負責將不同的rest api分發到不同的neutron-plugin上。
  • Neutron-plugin可以理解爲不同網絡功能實現的入口,各個廠商可以開發自己的plugin。Neutron-plugin接收neutron-server分發過來的REST API,向neutron database完成一些信息的註冊,然後將具體要執行的業務操作和參數通知給自身對應的neutron agent。
  • Neutron-agent可以直觀地理解爲neutron-plugin在設備上的代理,接收相應的neutron-plugin通知的業務操作和參數,並轉換爲具體的設備級操作,以指導設備的動作。當設備本地發生問題時,neutron-agent會將情況通知給neutron-plugin。
  • Neutron database,顧名思義就是Neutron的數據庫,一些業務相關的參數都存在這裏。
  • Network provider,即爲實際執行功能的網絡設備,一般爲虛擬交換機(OVS或者Linux Bridge)。

6 兩類Plugin

  • Core-plugin,Neutron中即爲ML2(Modular Layer 2),負責管理L2的網絡連接。ML2中主要包括network、subnet、port三類核心資源,對三類資源進行操作的REST API被neutron-server看作Core API,由Neutron原生支持。其中:
Network 代表一個隔離的二層網段,是爲創建它的租戶而保留的一個廣播域。subnet和port始終被分配給某個特定的network。Network的類型包括Flat,VLAN,VxLAN,GRE等等。
Subnet 代表一個IPv4/v6的CIDR地址池,以及與其相關的配置,如網關、DNS等等,該subnet中的 VM 實例隨後會自動繼承該配置。Sunbet必須關聯一個network。
Port 代表虛擬交換機上的一個虛機交換端口。VM的網卡VIF連接 port 後,就會擁有 MAC 地址和 IP 地址。Port 的 IP 地址是從 subnet 地址池中分配的。
  • Service-plugin,即爲除core-plugin以外其它的plugin,包括l3 router、firewall、loadbalancer、VPN、metering等等,主要實現L3-L7的網絡服務。這些plugin要操作的資源比較豐富,對這些資源進行操作的REST API被neutron-server看作Extension API,需要廠家自行進行擴展。

最開始曾經提到,“Neutron對Quantum的插件機制進行了優化,將各個廠商L2插件中獨立的數據庫實現提取出來,作爲公共的ML2插件存儲租戶的業務需求,使得廠商可以專注於L2設備驅動的實現,而ML2作爲總控可以協調多廠商L2設備共同運行”。在Quantum中,廠家都是開發各自的Service-plugin,不能兼容而且開發重複度很高,於是在Neutron中就爲設計了ML2機制,使得各廠家的L2插件完全變成了可插拔的,方便了L2中network資源擴展與使用。

ML2作爲L2的總控,其實現包括Type和Mechanism兩部分,每部分又分爲Manager和Driver。Type指的是L2網絡的類型(如Flat、VLAN、VxLAN等),與廠家實現無關。Mechanism則是各個廠家自己設備機制的實現,如下圖所示。當然有ML2,對應的就可以有ML3,不過在Neutron中L3的實現只負責路由的功能,傳統路由器中的其他功能(如Firewalls、LB、VPN)都被獨立出來實現了,因此暫時還沒有看到對ML3的實際需求。

===================== 代碼分析 =========================
一般而言,neutron-server和各neutron-plugin部署在控制節點或者網絡節點上,而neutron agent則部署在網絡節點上和計算節點上。我們先來簡單地分析控制端neutron-server和neutron-plugin的工作,然後再分析設備端neutron-agent的工作。

具體的代碼這次分享沒有時間講了,只能講個大致的輪廓和思路。有興趣深入研究的同志,可以關注SDNLAB上“網絡虛擬化”專題的後續更新。

(注意,以前廠商開發的L2 plugin跟ML2都存在於neutron/plugins目錄下,而可插拔的ML2設備驅動則存在於neutron/plugins/ml2/drivers目錄下)

1. 控制端的實現

從neutron-server的啓動開始說起。neutron-server的啓動入口在neutron.server.__init__中,主函數中主要就幹了兩件事,第一是下圖l 48處啓動wsgi服務器監聽Neutron REST API,第二是在l 52啓動rpc服務,用於core plugin與agent間的通信,兩類服務作爲綠色線程併發運行。從SDN的角度來看,wsgi負責Neutron的北向接口,而Neutron的南向通信機制主要依賴於rpc來實現(當然,不同廠家的plugin可能有其它的南向通信機制)。

  • 北向方面,Neutron的wsgi通過Paste工具進行模板化部署,它接收Neutron REST API的業務請求,然後通過APIRouter將其分發給對應的plugin。
  • Neutron內部,plugin與數據庫交互,獲取業務的全局參數,然後通過rpc機制將操作與參數傳給設備上的Agent(某些plugin和ML2 Mechanism Driver通過別的方式與Agent通信,比如REST API、NETCONF等)。
  • RPC機制就可以理解爲Neutron的南向通信機制,Neutron的RPC實現基於AMPQ模型,plugins和agents之間通常採用“發佈——訂閱”模式傳遞消息,agents收到相應plugins的***NotifyApi後,會回調設備本地的***CallBack來操作設備,完成業務的底層部署。

2. 設備端的實現

控制端neutron-server通過wsgi接收北向REST API請求,neutron-plugin通過rpc與設備端進行南向通信。設備端agent則向上通過rpc與控制端進行通信,向下則直接在本地對網絡設備進行配置。Neutron-agent的實現很多,彼此之間也沒什麼共性的地方,下面選取比較具有代表性的ovs-neutron-agent的實現進行簡單的介紹。

Ovs-neutron-agent的啓動入口爲/neutron/plugins/openvswitch/agent/ovs-neutron-agent.py中的main方法,其中負責幹活的兩行代碼在l 1471和l 1476。L 1471實例化了OVSNeutronAgent類,負責在本地配置OVS,而l 1476則啓動了與控制端的rpc通信。

OVSNeutronAgent的實例化過程中依次幹了6個工作:啓動ovs br-int網橋;啓動rpc;啓動ovs br-eth1;啓動ovs br-tun;實例化OVSSecurityGroupAgent;開始rpc輪詢與監聽。

rpc_loop做的工作主要就是輪詢一些狀態,根據這些狀態,進行相應的操作。比如一旦探測到本地的OVS重啓了(l 1295,l 1309),就重新創建本地的網橋(l 1294-1300),並重新添加port(l 1336);再比如一旦rpc監聽到update_port事件(l 1309),則在本地使能相應的port(l 1336)。

ovs-neutron-agent的啓動也就是這些工作了,啓動完畢後,便開始了與相應plugin(OVS Plugin或者OVS Mechanism Driver)的rpc通信。

================= 代碼分析 ====================

Neutron的軟件實現就簡單地介紹到這裏了,下一節我們來具體看看Neutron中各個OVS上的流表邏輯是怎樣的。

四、Neutron OVS上的流表分析

在具體介紹OVS的工作機制之前,大家要先理解OVS並不是Neutron網絡實現的唯一選擇。
實際上,Neutron中底層網絡的實現千差萬別:有的agent本地是真正處理數據流的網絡設備(OVS,Router,LoadBalancer等),而有的agent本地是SDN控制器(如ODL、ONOS、OpenContrail、NSX等)。上述Neutron底層網絡的兩種模型示意如下。

第一種模型中Neutron相當於SDN控制器,plugin與agent間的通信機制(如rpc)就相當於簡單的南向協議。第二種模型中Neutron作爲SDN應用,將業務需求告知SDN控制器,SDN控制器再通過五花八門的南向協議遠程控制網絡設備。當然,第二種模型中也可以把Neutron看做超級控制器或者網絡編排器,去完成OpenStack中網絡業務的集中分發。

以下我們講的是第一種模型中OVS處理數據流的工作機制。後一種模型中,SDN控制器也可以通過OpenFlow或者OVSDB來控制OVS處理數據流,對此本節暫時不進行討論,後續也會有文章會詳細介紹ODL和ONOS等SDN控制器對Openstack的支持。

================== 分隔線 ======================

以Overlay組網模型對OVS的工作機制進行介紹,具體分爲兩個角度:OVS實現L2的基本連接,OVS對連接機制的優化。

(一)L2基本連接的實現

復原一下通信場景,其中的網絡基礎請參考“OpenStack網絡基礎”一小節。圖中某租戶有兩個網段,分別用橙紅色和藍色表示,網段間的互通要經過網絡節點中的Router,網段內的通信不需要經過網絡節點中的Router。網段間的互通可分爲3步:橙紅色網段通過網段內通信找到Router,Router進行路由,Router通過藍色網段的網段內通信轉發給目的地。Router上的路由是linux內核實現的,我們不去關心,因此可以說租戶內部通信都是基於網段內通信實現的。

Overlay模型中,網段內通信涉及ovs br-int和ovs br-tun,計算節點和網絡節點中兩類網橋的實現沒有什麼區別。概括地說,br-int負責在節點本地的網段內通信,br-tun則負責節點間的網段內通信。

在本節的場景內br-int實現爲普通的二層交換機,即完成VLAN標籤的增刪和正常的二層自學習與轉發,沒有必要進行過多的解釋,其代碼實現請參考“Neutron的軟件實現”中agent部分。

Br-tun採用多級流表實現節點間的網段內通信,下面直接通過圖示來看br-tun中多級流表的設計。圖中流表的序號不是固定的,可在neutron.plugins.openvswitch.agent.common目錄下的constants.py文件中修改。

所有流經br-tun的數據包首先進入Table 0進行處理。Table 0對數據包的來源進行判斷,從與br-int相連的patch-int進入的數據包交給Table 1處理,從GRE或者VxLAN端口(不同節點間的隧道有不同的Port_ID)進入的分別交給Table 2、Table 3處理。Table 1根據數據包目的MAC地址判斷是否爲單播,是則送往Table 20,否則送往Table 21,Table 20根據(VLAN_ID,MAC)到(PORT_ID,TUNNEL_ID)的映射關係將單播包送到特定的隧道,Table 21將非單播包複製後送到所有隧道。進入Table 2或者Table 3的數據包,首先判斷TUNNE_ID是否合法,是則添加本地VLAN_ID並送往Table 10,否則丟棄。Table 10記錄數據包的VLAN_ID,MAC、入端口以及TUNNEL_ID,將(VLAN_ID,MAC)到(PORT_ID,TUNNEL_ID)的映射關係寫入Table 20,然後將數據包從與br-int相連的patch-int送出。

可見,上述過程就是標準MAC自學習在隧道中的擴展,無非就是將(VLAN_ID,MAC)到PORT_ID的映射變爲了(VLAN_ID,MAC)到(PORT_ID,TUNNEL_ID)的映射。這種自學習仍然要依賴於泛洪來完成,引入l2_population或者SDN控制器後可以避免掉泛洪。

(二)連接機制的優化
OVS上,連接機制的優化主要體現在l2_population機制,以及對DVR(Distributed Virtual Router,分佈式L3-agent)的支持。

2.1 L2_population

虛擬機在通信前,會發送ARP請求去解析目的MAC與目的IP間的映射關係,這一過程需要發送二層的廣播包。由(一)中的介紹可知,這會導致隧道上的泛洪,這顯然是不能令人滿意的。

傳統網絡中ARP依賴於廣播泛洪的原因在於沒有一個集中式的控制平面,而Neutron中的數據庫存有所有虛擬機MAC地址與IP地址間的映射,可以說是一個天然原生的控制平面。因此有人提出了將該映射關係注入到OVS本地,在本地處理ARP廣播,以避免隧道上的泛洪,這就是l2_population。

L2_population的實現並不複雜,就是在1介紹的流水線中增加一個ARP Table去處理ARP Request。ARP Table中會事先存好MAC與IP的映射關係,如果ARP Table中匹配ARP Request消息中的目的IP,則構造一個 ARP 響應包,從ARP Request的入端口返回給虛擬機。如果匹配失敗,則跳轉到 Table 21繼續泛洪。上述過程如下圖所示,之所以保留ARP Table到Table 21的跳轉,主要是爲了防止l2_population出現問題。

L2_population的工作就是這麼簡單,卻可以大大減少不合意的隧道泛洪。其實dhcp也存在類似的問題,如果只在網絡節點上放置dhcp-server,那麼所有的DHCP DISCOVER消息都要靠隧道泛洪發送到網絡節點上。當然,dhcp消息的數量和產生頻率遠遠趕不上arp,問題也不會那麼明顯。

解決dhcp存在的上述問題,一種思路是在Table 21上專門寫一條高優先級的dhcp流表項去匹配dhcp廣播消息,並將所有的dhcp消息都封裝送到網絡節點的隧道。另外,也可以採用類似於l2_population的思路,從Table 1上專門寫一條高優先級的dhcp流表項去匹配dhcp消息,這條流表項只需要將dhcp消息通過相應的端口轉交給dhcp namespace即可。之所以用namespace實現,是因爲Dhcp消息封裝在應用層,OpenFlow流表無法直接支持dhcp消息的封裝,因此這個活得由分佈在計算節點上的dhcp namespace來完成。

第一種思路優點是實現簡單,但是一旦網絡節點發生單點故障,虛擬機便無法正常使用dhcp獲取IP,不過kilo版本中已經有人在多個網絡節點中實現了dhcp_loadbalance(https://blueprints.launchpad.net/neutron/+spec/dhcpservice-loadbalancing)。第二種思路實現複雜一些,但能夠避免網絡節點單點故障帶來的問題,實現分佈式dhcp。

2.2 DVR

上一小節簡略地提到了分佈式的dhcp,這個工作社區有人提過但是反響並不是很大,而分佈式的路由(Distributed Virtual Routing)卻很早就成爲了社區的共識,並在Juno版本中給出了實現。

Neutron中Router用來實現同一租戶不同網段的虛擬機間的通信,這屬於東西向流量,具體可以分爲兩種:1. 同一個物理節點上不同網段內的虛機之間的通信;2. 不同物理節點上不同網段內的虛機之間的通信。Router還用來實現虛擬機與Internet間的流量,這屬於南北向流量,具體也可分爲兩種:1. 虛擬機訪問Internet的流量,通常需要經過SNAT處理;2. Internet訪問虛擬機的流量,可能需要經過DNAT處理。

在Neutron較早的版本中,上述流量都需要通過經過網絡節點上的Router來處理,一旦網絡節點故障或者網絡節點上的Router掛掉了,上述類型的流量也就都丟掉了。解決這一問題也有很多種思路:

  • 一種是通過部署多個網絡節點,在多個網絡節點間做調度的,不過這種很難實現各個Router本身狀態的一致性。
  • 於是,就有了通過在Router間跑應用層面的VRRP來同步Router狀態,這種方式是很不錯的,VRRP協議也比較成熟。但是問題在於,大部分流量仍然需要“繞彎子”進行傳輸,如同一個物理節點上不同網段內的虛機之間的通信可能需要到另一個物理節點的Router上處理。
  • 再於是,DVR就出現了,通過把Router分佈在各個計算節點中,各類流量都可以得到最優的處理,也不會再有單點故障的問題了。

接下來對DVR的講解發生在下圖的場景中:某租戶有紅、綠兩個網段,兩臺虛擬機vm1、vm2分屬兩個網段,分別位於計算節點CN1、CN2,租戶擁有一個DVR路由器r1,分佈在兩個計算節點之上。假定vm1已經通過ARP獲得了CN 1中r1在紅色網段接口的MAC地址r1 red mac,現在vm1發起向vm2的ping request。


拋開流表的格式與下發的過程,先按照圖中序號來看一看DVR流表下發後通信各個階段的數據包特徵。這裏規定(源MAC,目的MAC,源IP,目的IP地址)爲數據包的特徵4元組。

1)vm1發出的ping包特徵爲(vm1 mac, r1 red mac, vm1 ip, vm2 ip),該數據包送至br-int-cn1。

2)br-int-cn1在之前ARP過程中學到了r1 red mac所在端口,將ping包直接轉發給CN1中的r1。

3)r1進行路由,得知目的虛擬機連接在綠色網段上,而且r1中存有目的虛擬機的靜態ARP表項,不需要進行ARP解析。於是CN1中的r1通過其綠色網段接口將ping包重新送回br-int-cn1。此時ping包特徵爲(r1 grn mac, vm2 mac, vm1 ip, vm2 ip),br-int-cn1還不知道vm2連在哪裏,進行泛洪。

4)br-tun-cn1由br-int-cn1收到ping包,將源mac地址修改爲全局唯一的dvr cn1 mac,並封裝好隧道,標記綠色網段的TUNNEL_ID,直接送往CN2。此時ping包被封裝在外層包頭內,其特徵爲(dvr cn1 mac, vm2 mac, vm1 ip, vm2 ip)。

5)br-tun-cn2收到後去掉外層包頭,打上綠色網段的本地VLAN標籤,送給br-int-cn2,此時ping包特徵仍爲(dvr cn1 mac, vm2 mac, vm1 ip, vm2 ip)。

6)br-int-cn2識別出這是CN1經過綠色網段送過來的流量,於是將源mac地址改回r1 grn mac並剝掉VLAN標籤。br-int-cn2還不知道vm2連在哪裏,就將ping包泛洪。此時ping包特徵爲(r1 grn mac, vm2 mac, vm1 ip, vm2 ip)。

7)vm2收到ping request,回覆ping echo,反向的通信過程和上述基本一致。

上述步驟給出了通信的外在特徵,下面說明某些步驟內在的實現原理。
1)“r1中存有目的虛擬機的靜態ARP表項”,是因爲各個部署了DVR的計算節點中,l3-agent都事先從neutron數據庫中獲取了虛擬機的網絡信息,直接注入到了r1中。這是爲了防止r1跨隧道泛洪獲取vm2的MAC地址(可以通過l2_population來實現)。

2)“將源mac地址修改爲全局唯一的dvr cn1 mac”,是因爲在所有計算節點上,r1位於相同網段的接口mac地址是一致的,即CN1上的r1 red/grn mac與CN2上的r1 red/grn mac一致。因此爲了防止對端br-tun上的混亂, Neutron爲每個部署了DVR的計算節點分配了全局唯一的dvr mac地址,br-tun在進行隧道傳輸前都需要進行源MAC地址的改寫。

“並封裝好隧道,標記綠色網段的TUNNEL_ID,直接送往CN2”,DVR要求開啓l2_population事先學習(VLAN_ID,MAC)到(PORT_ID,TUNNEL_ID)的映射,以避免隧道上的泛洪。

3)br-tun-cn2解封裝後,判斷流量由dvr cn1送過來,不進行自學習,直接將流量送給br-int-cn2。

4)br-int-cn2中實現存有所有部署了DVR的計算節點的全局唯一的MAC地址,因而可以識別dvr cn1送過來的流量,完成源MAC地址的回寫後進行轉發。

流表的邏輯跳轉圖如下所示(注意,某些Table的ID發生了變化,且未表示l2_population)。

Table 0對數據包的來源進行判斷,從與br-int相連的patch-int進入的數據包交給Table 1處理,從VxLAN端口(以VxLAN爲例)進入的交給Table 4處理。Table 1判斷數據包是否爲發向r1的ARP,或者其他發給r1的二層幀,如果是則丟棄(爲了保證虛擬機送到r1的數據包只在本地轉發)。如果Table 1判斷數據包是由r1發出來的,則將源mac地址改爲CN1的dvr mac地址(爲了避免對端br-tun上的混亂),然後送往Table 2。Table 2根據數據包目的MAC地址判斷是否爲單播,是則送往Table 20,否則送往Table 21。Table 20根據(VLAN_ID,MAC)到(PORT_ID,TUNNEL_ID)的映射關係將單播包送到特定的隧道,該映射關係可事先通過L2_populaiton學習到,也可以通過Table 10的觸發學習到。Table 21將非單播包複製後送到所有隧道。進入Table4的數據包,首先判斷TUNNE_ID是否合法,是則添加本地VLAN_ID並送往Table 9,否則丟棄。Table 9判斷數據包源mac地址是否屬於dvr mac地址(由於示例場景比較簡單,圖中示例流表只匹配了CN2的dvr-cn2-mac),如果是直接送給br-int-cn1處理,否則轉給Table 10進行學習。Table 10記錄數據包的VLAN_ID,MAC以及TUNNEL_ID,將(VLAN_ID,MAC)到(PORT_ID,TUNNEL_ID)的映射關係寫入Table 20,然後從與br-int相連的patch-int送出。下面給出各個流表項的標註,其中紅色的爲新增的DVR表項。

DVR對於南北向流量的處理有兩種模型,第一種是SNAT在節點本地完成,第二種是SNAT仍需要到網絡節點進行,兩種模型分別示意如下。在節點本地進行SNAT則需要在計算節點的qr上爲虛擬機分配浮動IP地址,而在網絡節點完成SNAT比較節省公網IP資源,具體選擇哪種模型,要視用戶實際的業務需求而定。


講到這裏,對Neutron OVS上的流表分析就結束了。當然,Neutron的學問遠遠不止這些,看看目前社區已經完成的或正在進行的項目吧(https://wiki.openstack.org/wiki/Neutron)。下一節將簡單地對kilo、liberty、mitaka版本中Neutron的blueprint進行整理,方便大家掌握社區的最新動態,將來能夠共同學習。

Q&A

Q1:能說下在opnfv中爲何放棄了tap這一套機制麼?
A1:NFV對IO性能的要求很高,TAP是軟件實現的,性能上肯定會有問題。NFV現在傾向於硬件IO,如SRIOV,DPDK。

Q2:感覺tap這套機制僅僅是爲了插入linux bridge,好利用iptable而已
A2:有可能吧,但NFV應該不太會想用軟的設備做IO。

Q3:ovs-br1是ovs建立網橋嗎, ovs-br1是ovs建立網橋嗎
A3:這個是VLAN模型中,連接不同節點的網橋,宿主機的物理網卡直接被add上去了,overlay模型中,沒有br-eth1,換成了br-tun。

Q4:可以連接本地namespace,實現dhcp.是通過控制器中轉的嗎?
A4:在Neutron的基本實現中,dhcp不做特殊處理。在Neutron的基本實現中,dhcp不做特殊處理。

Q5:網橋是linux自創的?還是ovs創建的?
A5:網橋看你用什麼設備了,如果是linux-bridge就是linux-bridge-agent通過linux命令自建,如果是ovs,就是openvswitch-agent在設備本地通過vsctl建立的。

Q6:你這個external網絡也是vlan模式對吧。--provider:network_type vlan 這個external網絡支持vxlan嗎?我看他可以創建gre vxlan vlan flat。
A6:其實無所謂,extenal是另外一個segment,可以是VLAN也可以是別的。沒關係,支持。都可以,external與別的segment並無本質區別。

Q7:tap網卡加入到網橋,是爲了iptables使用方便。也可以採用流表實現相關功能?
A7:是的,目前有很多Neutron的子項目,都用OVS的流表支持IPTABLEs。比如DragonFlow。OVS 2.5.0版本還專門支持了OVN(Open Virtual Network),OVN對iptaqbles的支持比較好。

Q8:neutron不是不關心network節點網卡的外部網絡實現嗎?
A8:不是不關心external network,而是是不進行區別對待。只不過在創建時,external需要admin權限才能創建,創建的過程與別的租戶的network沒有區別。

Q9:external是在vlan模型的麼?
A9:external不限於vlan,什麼都可以,對於external network,Neutron不進行區別對待。external就是一個網段,連在路由器的一個接口上,與其他segment的區別就在於,它的subnet是雲環境外的IP

Q10:如果external選擇了某個vlan的tag,出外網的報文會帶tag?
A10:這要看你external後面的物理交換機了,配置好了就不會在出外網時代VLAN tag。物理交換機需要手動配好。

Q11:metadata-agent dhcp-agent 可以在不同的節點上運行嗎?
A11:metadata-agent dhcp-agent 可以在不同節點運行,都支持HA。在Compute節點上也類似,完全分佈式。

Q12:應該是最多支持4k個網絡,而不是4k個網絡,因爲一個租戶可以有多個網絡。
A12: 不一定,即使是VLAN模型,如果路由器實例多了也可以超過4K個網絡。

Q13:br-int與ovs br-ex間有直連?這個沒見過,除非是vlan或flat模式,具體指的什麼結構,什麼版本?
A13:官方的資料上畫的,實際用途我也不是特別確定,一般情況下不會用到,網上有人說是爲了防止L3-agent出現問題而做的備份。

Q14:metering功能怎麼樣,目前應用多嗎?
A14:這個我不太熟悉

Q15:各個廠商的plugin是可以共存的嗎?
A15:ML2中是可以共存的,沒有ML2之前不能共同跑在一個底層網絡裏。

Q16:遇到過dhcp的tap設備和l3的qr設備,在某種情況下(服務器宕機)tag會變爲4095的情況嗎?
A16:沒有遇到過。

Q17:ovs的性能問題有什麼好的建議?用dpdk能夠解決嗎?
A17:Neutron的性能調優是個太複雜的問題,VM到VM之間但凡用軟件實現的,都可以調優,我這裏單純地理解爲IO的速度不夠。對於OVS的調優,不談代碼的話,我主要想到的思路有以下幾個:1. 將部分功能如隧道Offload到TOR上去(這個應該盛科做過),或者使用STT這類可以做TSO的;2.用dpdk給OVS datapath做加速;3.更乾脆一點直接用SRIOV這樣的總線技術把OVS旁路掉。

Q18:dvr的全局mac是存在數據庫裏的嗎,並且在流表裏會有記錄,並做些替換的操作。qr上ip是否相同?qg呢?這個qr和qg是什麼樣子的
A18:dvr mac是存在neutron中的,全局唯一,事先分配。dvr存在的意義是:在所有計算節點上,r1位於相同網段的接口mac地址是一致的,即CN1上的r1 red/grn mac與CN2上的r1 red/grn mac一致。因此爲了防止對端br-tun上的混亂, Neutron爲每個部署了DVR的計算節點分配了全局唯一的dvr mac地址,br-tun在進行隧道傳輸前都需要進行源MAC地址的改寫。dvr是虛MAC。每個租戶路由器上同一網段的qr的IP地址、MAC地址在各個計算節點上都是一樣的。這正是設計dvr的出發點。qg就是外網的IP,有Floating IP另做考慮。qr上的IP不會衝突,因爲除了dvr mac的設計以外,br-tun還把本地VM到QR的流量給拋棄了,不會送進隧道。

----------------------------------------------------------------------------------------------------
SDNLAB微信直播羣定位爲面向網絡創新技術的愛好者及從業人員進行交流、學習、分享,吸引了來自高校、雲服務提供商、互聯網廠商、設備廠商、運營商等單位的從業人員近千人,每週會組織定向的技術及業界動態分享,如果你有需要分享的請加微信:353176266聯繫。


  • 本站聲明本站原創文章可以轉載,請註明來自 SDNLAB
發佈了18 篇原創文章 · 獲贊 6 · 訪問量 7萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章