人人都是網絡工程師

網絡是個很複雜的東西,經常晚上有美女家裏上不了網,就打電話給我說“高老師,我家網絡壞了,快來幫我修一下”。修了幾次之後,我就有了這樣一個心得:網絡工程師的桃花運都比較好。

當然,修復無線路由器只是小菜一碟(PS:我一般都帶個新的路由器過去),網絡工程師的日常更多的時候是這樣的:

凌晨1點,剛剛完成網絡變更的你,躺在舒服的牀上準備睡覺,望着枕邊熟睡的兒子,嘴邊泛起一絲微笑,感覺未來都是亮的。突然手機“bilibili”聲響起,短息告警顯示核心交換機網絡異常,內網丟包率15%。你不能多想,立即然後穿好衣服,奔向機房,看着下面一坨網線,陷入沉思,想到底是哪裏又出了問題。

所以大部分網絡工程師都有一個特點:黑眼圈。哈哈,這裏就不調侃了,我們進入正題。


今天的主題是人人都是網絡工程師,但是很明顯在過去的很長一段時間,網絡工程是一件很專業的事情。那麼,我們先基本羅列一下在傳統的IT環境下,一個組織想獲得穩定可靠的網絡環境需要做哪些事情呢?

一般來講,網絡系統的交付可以分成兩個部分:網絡的規劃建設 + 網絡的監控運營

1. 網絡規劃和建設

一個典型的網絡可能像下面一樣(圖片來自互聯網,僅用於本次交流分享):

爲了完成網絡的規劃和建設部署,工程師需要了解以下內容:

  • 網絡基礎知識:OSI協議、路由協議(OSPF、RIP、BGP等)、內網組網、Internet聯網

  • 網絡設備知識:常見品牌的交換機、路由器規格配置、性價比、可維護性

  • 運營商知識:中國各省市運營商狀況、專線及公網接入

其中第一條的網路基礎知識,花1年時間學習並完成CCIE課程應該可以搞定;

第二條的網絡設備知識需要工程師有多個項目交付經驗,對市場中常見品牌及型號有了解,同時具備熟悉的操作能力,2年左右時間可以搞定;

第三條需要有實際項目和運營商經驗,可以在第二條基礎之上一同學習。簡單來說,至少需要3年左右時間,纔可以具備獨立搞定一套網絡的知識儲備(當然大神學習特別快的不特殊而論哈)。不過很明顯,一般人真搞不定!

2. 網絡監控及運營

網絡建設整體交付後,爲了保證整個網絡的可運維性,需要配套開發一整套網絡監控和管理系統。一般私有云交付會提供配套的網絡監控系統,如果是按照自己的需求從頭到尾自己弄,那配套需要一個運營開發團隊才能按照ITIL(IT基礎架構庫)的模式搭建起一套完成的網絡監控、故障派單的系列管理系統。

系統搭建起來後,還需要僱用一個專業的網絡運營團隊7*24小時不間斷進行網絡的運維監控,發現問題在一定時間內完成系統的應急修復。如果發現基礎業務網絡架構拓撲無法滿足需求,還需要額外補充建設環路以保證網絡互連可用性。下面是一個看起來比較酷炫的NOC(網絡運營中心)監控中心形象。

說了這麼多,總結起來一句話:

在傳統的IT架構中,人人來做網絡工程師,癡心妄想~不僅建設規劃的時候要下血本,後期的監控運維也要付出很大的人力代價。

然而,公有云的普及給人人都是網絡工程師一個機會!

這是一個典型的公有云和用戶的服務分界。無論是通過標準的vxlan網絡虛擬化協議,還是通過騰訊雲這樣自研的3層GRE隧道封裝,公有云服務商都普遍在網絡層(IP)來劃定用戶和平臺的邊界。IP層協議全世界都是標準的,剛剛上面寫的傳統網絡部署中,不標準的交換機、路由器和運營商網絡環境,都被公有云提抽象成了標準的網絡服務組件,複雜的運營商網絡環境通過統一的BGP出口和附帶有SLA的標準網絡服務來代替。

只要你在計算機專業學過簡單的圖知識,花1天時間看一下IP協議和基本的靜態路由知識,就可以分分鐘在公有云平臺上部署起一套金融級網絡架構。下面我分別簡單介紹一下公有云提供的網絡服務,並和傳統網絡環境做一下對比。

1. 公網服務

用戶在公有云上部署的集羣,大部分用於對外提供服務。公有云的用戶不需要理解中國有多少家運營商(電信、聯通、移動、長城寬帶、教育網……..還有幾十家可以列出來),也不需要理解各家運營商分佈在哪些區域,覆蓋哪些客戶,自己的客戶都在用什麼網絡。你只要知道有你有一個很NB的公網IP,這個IP很牛逼可以服務所有的客戶就好了。如果你是一個有追求的人,還可以從監控平臺看一下這個IP輻射中國大江南北各種用戶的時延和可用性。

公有云廠商爲了實現這樣簡單的用戶體驗,至少要做以下幾樣事情:

  • 運營商融合:購買支持多運營商的公網IP和帶寬(騰訊雲聚合了20家運營商,還在增加)。如果是傳統網絡,只能用戶自己一家一家的去接入,同時還要自己估算每家的接入帶寬,事實告訴我們這些預估總是不準確的,一部分超出的會導致成本徒增,一部分低估的會在業務增長時成爲瓶頸。(公有云平臺一般都是按量的,不存在這樣的問題)

  • 大帶寬出口預備:通過足夠大的公網帶寬保證用戶的服務波峯不會阻塞網絡出口,同時入流量DDos攻擊不會影響正常網絡服務,單出口沒有個500G都不好意思說平臺是搞公有云的。如果是傳統網絡架構,多買100m的帶寬,就要付100m的成本,爲了保證不停服需要提前購買很多網絡帶寬導致網絡帶寬成本居高不下,而公有云上面就可以實現全面的按量計費,用多少付多少的錢,平臺通過足夠多的客戶來削峯填谷降低單個客戶的成本。

  • 網絡流量調度:使用SDN或手動方式使網絡流量可以跨出口調度以應對運營商的網絡故障,比如北京電信的網絡斷了,就把流量切到上海電信。這個能力在國內也只有騰訊、阿里這樣的互聯網公司提供的網絡有,其他中小型公有云廠商最多隻能做到運營商之間來做流量切換(電信流量臨時切換至聯通),業務峯值時跨運營商的流量切換業務時延基本沒有保證。而傳統網絡下,基本沒可能做此類流量調度方案,原因很簡單:一個字,貴!

  • DDos流量清洗:由於用戶體量大,公有云平臺被DDos攻擊的風險也很大,過去一段時間我統計騰訊雲100Gbps左右的DDos攻擊每天平均10次,300Gbps以上的攻擊每個星期也會出現幾次,因此強大的流量清洗能力也是公有云平臺的必備能力。傳統網絡中只能藉助第三方DDos清洗平臺,而且價格十分之貴。

2. 內網服務

內網服務方面,公有云平臺爲了方便用戶配置,一般會提供VPC這樣的虛擬專有云服務。通過對基礎網絡環境進行虛擬化,用戶可以自行規劃自己雲主機的內網IP、內網網段、劃分子網、指定路由等等,底層的交換機、路由器設備可能有各種各樣的型號,但是最終都通過虛擬化整合成了一套虛擬化後的網絡結構,這樣用戶只要學習一邊公有云的網絡架構後,再也不需要去感知硬件廠商的各種變化和更新了。

公有云上,劃分子網、變更路由等操作都是在可視化的 web 控制檯中操作的,不用擔心對網絡對象的變更是否會影響到其他業務服務觸發重大事故。鼠標點一點,輸入一下核心參數,一個網絡變更就完成了。像AWS、騰訊雲這樣在VPC設計上還支持了子網的策略路由功能,每次路由變更也只會對關聯子網範圍內生效,其他子網根本不受影響。是不是感覺心裏頓時少了一塊大石?

爲了更加簡化用戶使用公有云的網絡服務,公有云廠商還會對標準的邊界網關進行開發,提供黑核型的邊界網關服務,以騰訊云爲例,我們提供了:

  • NAT網關:用於雲主機主動訪問Internet

  • IPsec VPN網關:用於建立IPsec VPN連接

  • SSL VPN 網關:用於建立SSL VPN連接

  • 專線網關:用於接入專線,並提供專線兩端的網絡地址轉換(NAT)功能

  • 對等連接:用於公有云上同地域或不同地域之間的VPC互聯

各種邊界網關、內網路由的可用性等都無需考慮雙路由等設計,因爲雲平臺廠商已經在底層網關設計、路由設計底層做了主備容災切換邏輯,部分容災是在同機房的不同設備上,部分容災是在不同機房的不同設備上而已。

內網服務部分,各大雲廠商平臺還會提供安全組這樣的通用安全策略工具,通過爲雲主機配置差異化的安全策略,就可以實現金融級的網絡訪問權限管理。

3. 網絡監控、告警及故障處理

完成了系統部署之後,大部分公有云平臺還會提供全面的網絡監控和告警功能,當每個監控對象觸發了告警策略之後,即會通過你所配置的通信方式聯繫到你。如果是容量告警,您可以在控制檯分分鐘搞定網絡擴容而不停服;如果是底層網絡故障,那麼無論是運營商層、設備層、服務對象層都會有云平臺的工程師第一時間爲您處理,您自己無需做很多現場的操作。

這裏交給大型公有云廠商的好處顯而易見:網絡的故障不僅會影響你的服務,也會影響QQ、微信等服務,你在雲上的部署相當於享受着和國際頂尖服務一樣的網絡運維管理能力(當然中小型廠商的雲服務運維能力我這兒無法一一鑑定),比起自己搭建私有云,自己僱人來管理可靠得多!


那麼看着這麼眼花繚亂的功能,真的能做到人人都是網絡工程師嗎?

當然可以!只要你掌握了下面幾個基礎知識,就可以完全勝任公有云平臺上的網絡管理工作:

大學計算機基礎 or 計算機網絡等級考試 及格即可(我記得大學考網絡三級考試也就花了1天時間刷刷題,就過了…)

有了上面的基礎知識,如果讓我面授一下,基本上1天之後可以完成控制檯所有的網絡操作和管理了。如果是看文檔會比較抽象,不過自學能力強的同學有1個星期也可以玩個差不多了。

核心知識點:

  1. 定義VPC和子網 CIDR

  2. 公有云路由優先級的匹配規則(一般是最精確路由匹配)

  3. 根據業務需要,熟悉常見的網關對象,比如nat網關、vpn網關等

  4. 配置基本的安全組策略

  5. 上手實操,邊玩邊學

  6. NAT網絡地址轉換(高級功能,上手可以先不用看)

只需要這幾步,已經可以給公有云上95%的用戶做網絡架構規劃了,而自學這些最多不需要1周的時間,你說未來是不是一個“人人都是網絡工程師”的年代?

當然“人人都是網絡工程師”也不是特別好,因爲越來越多的公司轉向公有云後,很多公司原有的網絡工程師會被開發或者少數的幾個運維替代,從而不可避免的面臨失業問題。不過從全世界角度來看,私有云和混合雲的部署方式還會長期存在,所以也不用特別擔心這些問題哈。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章