TF Live丨KK/建勳:多雲、SDN,還有網工進化論

一場疫情,改變了所有人的生產與生活,在時代的不確定性面前,我們應該怎麼做?
昨晚,第一場【TF Live】如約而至,活動持續了兩個多小時,在線人數將近1000人,互動討論熱鬧十足。TF中文社區技術代表、瞻博網絡全國合作伙伴技術經理張建勳(江湖人稱KK),與大家聊了多雲網絡演變、SDN開放、Tungsten Fabric創新和網工轉型等話題,關鍵詞就是一個“變”字,在當下的特殊時期,尤其值得每個人認真思考。
直播活動由SDNLAB和TF中文社區聯合舉辦。

點擊下載文檔 https://tungstenfabric.org.cn/assets/uploads/files/tf中文社區演講-sdnlabv1.pdf 查看本文所有相關資料。
直播活動視頻回放】 https://v.qq.com/x/page/z0936fbc8fo.html

雲捲雲舒,SDN應時而變

時代在變,單一混合雲,逐漸演變成了多雲的環境。多雲是混合雲的進步。

任何企業的IT發展,都不是革命性推倒重來的,而是逐漸累積,就像給你一筆錢理財,你會分散投資一樣,IT也是根據自身的能力,根據技術適應場景去做選擇。問題來了,不同廠家都有自己的理念、思路和方法,挑戰是什麼?

人們發現,SDN不是萬能的,很多問題不是SDN能解決的,SDN不要增加問題就不錯了。而在硬件SDN上,存在三方面的問題:SDN功能和設備鎖定;功能擴展上受制於廠家設備;做NFV和服務鏈集成時,安全設備引流只能侷限在同一廠家。

換一個思路如何?將虛擬網絡層統一,由上層控制器統一管理,下發網絡的時候,使用統一的策略,下發到每一個對應服務器的虛擬網絡設備上。這裏存在一個情況,裸機服務器怎麼辦?需要由物理交換機承擔虛擬交換機的工作。

如果將每一個服務器上的kernel層,都安裝一個虛擬交換機,下面的網絡,通過核心層設備+底層設備,跨越了硬件的交換機,underlay承載的工作就會非常簡單,只負責物理設備,只負責IP Fabric服務器之間IP流量的互傳,而不用去關心硬件的交換機究竟是什麼產品。這種設計思路,在目前主流廠家中很常見,尤其是在公有云環境中。

無論是國外的主流公有云,還是國內的幾家,他們的SDN和硬件交換機都是解耦的。SDN應該要做的事情,就是讓虛擬機能夠在不同的平臺運行,業務之間自動的打通。不關心上層是什麼平臺,K8s也好,Openstack或VMware也好,就單純爲業務創建網絡。

我理解現在的SDN就是tradeoff,其實就是平衡,而平衡就是混合,軟件SDN的方式,目前在性能上是可以滿足需求的,如果一定要追求更高性能,也可以在裸機上實現。

未來將會如何?

首先,未來SDN一定是開放解耦的架構,從全部硬件SDN,變爲部分硬件+部分軟件。SDN的功能,應該像真正的公有云環境中SDN的功能一樣,和硬件交換機是一個鬆散的關係,解耦的邏輯。

第二,硬件交換機本身,也會有硬件和軟件的解耦,也就是白盒化的進一步升級。

第三,在企業雲的設計中,最重要的還是IT管理,可能催生出來的機會就是CMP,統一的雲化管理,而這個平臺一定是定製化的,是和業務緊密掛鉤的。無論是集成業務商,還是企業自己建設平臺,定製化雲管平臺都是實現IT轉型的很好方式。

[QA環節]

Q:內部雲平臺可以統一管理,但是多雲呢?怎麼管理到阿里雲、騰訊雲和內部統一,怎麼統一下發策略?

A:以AWS爲例,私有云和公有云在設計的時候,地址的管理是很難統一的,針對地址或網段的管理,我們在K8s環境下和AWS有個互聯互通的測試。我們可以把阿里雲的平臺,理解成自留地資源,安裝了相應的環境和平臺,把其中網絡的部分理解成underlay,虛擬網絡的部分交給Tungsten Fabric來做,其實就是overlay的方式。在AWS、Azure上,都可以採用這樣的方式。K8s的集羣是可以跨越不同點的。 (演示Tungsten Fabric的多平臺訪問demo)可以看到,在K8s、OpenStack、BMS多個平臺上,是可以通過開源的軟件,實現統一網絡管理的,不管虛擬機也好,docker也好,它們可以在一個網裏面,也可以在不同的網,根據你自己的需求而定,我們的策略是基於標籤tag的,做了一個網絡訪問策略,是SDN overlay的網絡策略,不用去考慮在什麼平臺下,一旦部署策略,策略就是基於邏輯,基於歸屬的。

簡單策略,跨越複雜部署

Tungsten Fabric就是一個面向未來的SDN解決方案,想要實現的是:多雲的部署方式+統一的策略。

Tungsten Fabric是一個SDN產品,支持統一策略、服務鏈管理、安全策略等。原來的名字是OpenContrail,2013年正式開源,2017年加入到Linux Foundation,2018年更名爲Tungsten Fabric。

在Tungsten Fabric的體系架構裏,下層就是IP Fabric,由虛擬交換機對應下層每一個虛機之間的通訊,上層有一對兒TF控制器,對上層是匯合對接不同的雲平臺/編排系統,同時將網絡信息以虛擬化的方式下發。至於裸機服務器,則通過Netconf的方式實現TOR的配置。

Tungsten Fabric是一個非常成熟的開源產品,是一個“共生”的開源——它是商業化產品開源出來的,而不是開源產品商業化,在成熟度上是經過驗證的。

通過這幾年版本的迭代,Tungsten Fabric已經比較成熟了,很多硬件SDN沒有的功能,也能支持得很好,集成度也比較高,特別適合技術創新,拿來作爲自己雲平臺的網絡管理部分,解決雲網裏面“網”的邏輯,使用起來也是統一的,並且可以解除一些產品的鎖定。

我們有自己的TF中文社區,希望降低大家學習網絡新知的難度,瞭解並熟悉Tungsten Fabric這個開源SDN的產品,能夠很快上手,真正運用起來,幫助到自己的企業和行業。

對於公有云的連接和管理,我的想法是這樣的,還是從需求出發。因爲公有云本身有自己的網絡環境和地址管理,因此這種管理本身和私有云平臺可能就會產生兼容性的問題,所以如果從統一管理的角度來說,統一成同一個網絡並不是特別的現實,至少我目前沒有合適的想法。

真是要實現可能有如下幾個模式:

第一個,就是做一個打通和互聯,不存在“大二層”的需求,那麼就是老樣子,IPSec 網關和路由打通,這是現在比較普遍的方式。當然,你買了公有云的專線,另當別論。

第二個,在網絡中先把地址規劃做好,比如VPC的網絡地址分配不衝突,不可能統一分配,但是至少做好管理,然後安裝一個支持大二層比如EVPN功能的GW,假定是Juniper的VMX,那麼這時可以實現VMX和Contrail(同Tungsten Fabric)的EVPN互通,用EVPN對的方式打通所謂的“二層”,某種程度上來說,相當於兩個二層的縫合,而這時公有云的虛機的網關不再是VPC原有的網關,而是我們做的VMX,這個也是可能實現的。

第三個,還有一個是CEM裏面的multicloud gw,這個只能在K8s平臺下是OK的。

Multicloud gateway (MC-GW) node interconnects different Virtual Private Cloud (VPC)/Virtual Networks (VNets) in cloud. Additionally, MC-GW extends on-premise resources to cloud.

鏈接如下:https://www.juniper.net/documentation/en_US/contrail19/topics/task/installation/deploy-multicloud-contrail-command.html

[QA環節]

Q:Tungsten Fabric與NSX到底有啥區別?
A:在技術實現的理念上完全一樣,都是使用server overlay的方式。在實現的方式上,除了一個花錢一個不花錢以外,NSX實現一定是在VMware平臺,Tungsten Fabric實現是多平臺的。在和VMware的互通上方式,需要有技術選擇,第一個是全網使用VMware只做IP Fabric,但是可以和vCenter建立關係;第二個是將vRouter安裝到每一個虛擬機下面做網關。實際上,對於VMware客戶其實已經是選擇了私有化方案,不會選擇其他平臺。不同的實現場景,解決不同的問題。

Q:大量BGP路由收斂的話,收斂時間是否會成爲一個問題?
A:從實踐和測試的角度來說,爲什麼會選擇BGP或者說EVPN,就是因爲它整個的效率是一個平衡的效率,這是協議的設計上決定的,不管是量大還是量小,選擇的都是比較成熟的協議。BGP是行業裏收斂和變化最穩定的一個,和傳統的IGP路由協議不一樣(附註:旨在說明不存在路由算法),跟OpenFlow方式也不一樣,它是一個比較樸素的分佈式部署的方式,通過RR的方式,每個vRouter看到的鄰居其實是兩個RR,,採用按需更新的方式,在這種情況下,收斂性方面不是問題。

Q:vRouter萬一掛了怎麼辦?
A:是否足夠穩定,要看運行環境是什麼樣的。目前的實踐來看,vRouter掛的情況比較少。問題在於,當做到生產環境的時候,需要考慮整個服務器的硬件匹配,操作系統的匹配,包括KVM版本、kernel版本、K8s版本等的匹配。同時,TF本身也會有vRouter的檢測,會去看它的狀態,在troubleshooting的時候,也會做相應檢查,另外我們可以通過控制器對它進行重啓和重置。在這一點上,我對Juniper自身路由協議和路由處理方面的代碼還是有信心的。

IT快跑,網工如何轉型?

從多雲的角度來說,還是面臨着各種情況,做雲的過程中難免面臨技術爭議,包括技術選擇的問題和困境。企業IT有兩種模式或形態——穩態和敏態,本身是由由穩態走向敏態,不斷更新,不斷變化的。

用戶爲什麼選擇雲,其實也是市場的原因,市場對他們的要求提高了,比如製造業、餐飲、服裝等行業,他們在進行業務變革的時候,速度會很快,倒逼着IT變化也很快。

這裏就有一個值得大家思考的問題,我們網絡從業者、網工,在這個不斷變化的時代,應該怎麼做?

兩年前,我就聽到說,網工已經成立了落後生產力的代表。因爲我們總是在滿足業務的需求,而不是積極的響應,很有可能業務會因爲網絡的原因不能實現敏捷,需要我們反思的是,負責服務器的,負責數據庫的,負責網絡的,當我們真正去做IT的時候,最好的方式是大家坐下來,確定統一的業務目標,統一的技術方向,這樣才能把IT做得更穩妥,任何一個冒尖或者落後,都會帶來問題。

未來,我們要更多瞭解業務,瞭解雲是怎麼設計的,讓網絡發揮最大的能力。我們要去看企業進行數據中心管理時的樣子,要了解他們選擇了什麼雲平臺,爲什麼選擇這個平臺,還要看在做什麼業務,爲什麼做這個業務,以及數據庫、應用結構等。一旦有了雲的設計,業務和IT的掛鉤,就會越來越緊密,應用研發和網絡的關係也越來越緊密。

雲肯定是未來方向,但在選擇上有不少困境。Tungsten Fabric是可以幫助企業實現技術把控的一種很好的手段,在熟悉了這個工具之後,在網絡的自主可控上,可以進行各種擴展,使用起來更加方便。

疫情期間,這段時間每個人都在思考,IT的發展怎麼樣?我相信,沒有冬天不會過去,沒有春天不會到來。

[QA環節]

Q:傳統網工該如何轉型?要學習的好多好複雜,不知如何學起?
A:網工是不是被邊緣化了?傳統知識不能滿足現在的需求,這是必然的。IT行業是不斷變化的行業,門檻不斷降低,網絡設備價格不斷降低,每個10G端口的成本不斷下降,但並沒有降低人的要求和素質。網絡是IT必不可少的部分,如果不瞭解生成樹、VLAN、基礎知識,沒辦法更深的內容,EVPN,VXLAN,Segment Routing,都是要學習的內容。技術基礎的持續學習是第一位的。 第二,與其說轉型,不如叫升級,增加一些看問題的視角。雲對網絡的變化有很多要求,但不同企業和行業對雲的認識差異還非常大,這裏有很多內容網工可以投入進去,一些技術因爲時間精力背景的原因不能深入,但至少要有全局的認識。 第三,提高自己自動化的水平,如果僅僅做CLI的,只是一個工人,要讓自己通過一些手段方法,把數據可視化,把經驗的東西程式化,轉化成工具。看Google或Facebook,他們的網工,每個人手裏都有幾把武器,檢測網絡的時候,人家編個腳本就上去了,但這種自動化編程,不是搞數據庫,就是先學現賣,拿來主義。如果你想有一些進步的話,看看其他老網工在做些什麼。 第四,網絡安全是未來的一個趨勢,針對安全的服務大有可爲。 大家可能知道,疫情期間能看到很多行業受到影響,但是我發現疫情期間打印機賣的特別火,因爲很多“神獸”在家,有打印的需求,因此我猜再開學的時候,學校周邊的打印店就不好開了。所以說,真正“搞垮”你的不一定是同行。同樣道理,我們爲什麼要去學自動化?傳統企業服務可能永遠用不到這個知識,就是要應對不確定性的變化,做好充分的準備,不拘泥一個廠商,而是根據看待行業本身的需要去尋找自身的優勢和劣勢,迎接變革的到來。

彩蛋

Tungsten Fabric最新版本v2003版,將於近期發佈!敬請關注TF中文社區,並加入我們的社羣,與行業大牛一起討論學習,未來社區還將探索更多在線活動玩法,敬請期待。

在這裏插入圖片描述

關注微信:TF中文社區
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章