圓桌對話:雲時代下,企業運維面臨的挑戰與機遇

簡介:四位企業運維大咖展開對話,討論“雲時代下,企業運維面臨的挑戰與機遇”。

編者按:上雲,已經成爲了企業勢不可擋的選擇。雲計算所擁有的“軟件定義一切”的特性,推動了敏捷彈性、DevOps、智能運維和基礎設施即代碼等自動化運維趨勢,給企業研發運維體系的進一步升級帶來機會,也給企業架構師與運維工程師帶來了新的挑戰。

12月10日,在2021雲上架構與運維峯會上,阿里雲邀請到了CSDN生態內容總監董世曉作爲負責人,與高效運維社區華東技術負責人陳剛、紅帽資深解決方案架構師陳炯、大搜車基礎設施部負責人李同剛和任意門運維負責人尤首智等四位大咖展開對話,討論“雲時代下,企業運維面臨的挑戰與機遇”。

以下爲圓桌討論實錄整理:

主持人.png

主持人:CSDN生態內容總監  董世曉

四位圓桌對話嘉賓

圓桌對話嘉賓.jpg

Q1企業爲什麼要上雲?

主持人:上雲已經是業內共識,但也存在一些不同的聲音。各位嘉賓都是上雲的資深人士,那麼首先想跟各位探討一下,企業爲什麼要上雲?上雲帶來哪些好處?還存在哪些問題?

陳剛:這是一個常談常新的話題。企業上雲最主要的驅動力是在IT成本方面的巨大優勢。雲廠商的價格在逐年下降,這對很多企業形成了巨大的誘惑力。一些入門級的雲服務器配置,一年的價格都在千元之內,中小企業面對這樣的低價很難不動心。企業自己買一個機器放在託管機房,再加上人力維護成本,花費估計是雲服務器的10倍以上。企業上雲,成本可控力是其巨大動力。

第二點就是隨着雲計算技術的發展,各種IaaS、PaaS、SaaS平臺和應用日漸成熟,大小企業都希望能夠在雲技術方面與時俱進,享受到最新的雲技術帶來的IT優勢,在激烈的市場競爭當中保持科技領先優勢。

與此同時,我們也要理性地去判斷企業上雲的利與不利,做出最適合自己的選擇。我從事運維工作超過20年,服務的企業包括國內外的一些電商、金融企業以及雲廠商,參與過一些機房的建設以及運營,也見識過很多企業上雲成功和失敗的案例。

企業上雲的成本節約對中小企業效果最明顯,因爲這類企業的要求都是一些標準化的需求,比如前後端、中間件、數據庫,基本不需要定製的IT框架,現有的雲倉標準方案就可以解決。但是一旦企業上了規模,比如說金融行業,銀行、保險、證券這些大型企業,上雲就比較曲折,在初期甚至還會增加一些IT成本。

因爲在上雲的過程當中,很多企業既要保持現有的基於實體機和虛擬機構架的穩定運行,又要在上雲的過程中穩定運行。所以他們需要投入額外的人力進行技術試點和技術探索,並且在過程當中要一直保持服務的兼容性。同時,很多大型企業會提出一些更高的要求比如構架回退計劃,這幾乎相當於高危動作,這些動作無疑都會增加企業在初期的IT投入。

陳炯:我們在傳統的運維模式裏經常會提到一個話題,就是自動化。標準化就是自動化的前提,我們上雲非常重要的一個原因,就是能得到一些標準化的交付。雲市場上有各種各樣標準化提供的軟件和硬件,在使用這些軟件和硬件的同時,我們享受到了標準化的服務,這對後期的運維也會帶來非常大的便利。

李同剛:企業上雲第一個優點就是快。在外部需求變化非常快的今天,如何提高基礎設施的交付,讓商業進程更快,是每個運維人員必須考慮的。上雲以後,可以利用雲的資源快速交付並實現業務價值。

第二個優點是省,特別是在安全方面。上雲以後,企業可以按需付費使用雲產品,對比上雲之前的私有化部署,成本會明顯下降。

尤首智:關於企業爲什麼要上雲,我的觀點分爲以下4個部分:

◾ 機房限制。傳統的物理機房包括帶寬、專線、電力等方面的限制,無法滿足企業快速成長的需求,雲上的架構的優勢會更明顯。

◾ 使用率。使用IDC的物理機配置相對較高,導致使用率是一個避免不了的問題。很多技術都是爲了解決這些問題,包括業務的混布、容器的技術,但都不是特別好的方式。問題的核心點還是在於彈性能力的不足。

◾ 中間件。雲上提供的中間件包括雲呼、實人認證、智能語音交互等產品。對於像Soul這樣的中小型企業,在現階段投入特別大的人力和精力去做一些偏功能性的中間件,最終的收益一定沒有直接使用雲上的產品來得高。

◾ 費用。關於費用,要看業務的形態和業務的特點。中小型企業上雲的運維成本是更低的,一是省在共享能力,二是省在彈性能力。雲上的多種機型的配置、競價實例、WAF、原生防護,均有提供共享模式爲企業節省費用。

Q2雲上運維工作最大的挑戰與解法?

主持人:從上述分享中我們可以知道,企業上雲以後可以享受到標準化的服務,高效、省錢、省力、安全。但對於一些有特殊要求的應用場景,還需要相關體系的進一步完善。

接下來想和各位嘉賓交流的是,上雲對運維工作有哪些挑戰?在各位自身的實踐或者服務客戶的過程中,是怎麼解決這些挑戰的?

陳炯:我們現在面臨的已經不是傳統意義上的監、管、控的運維了,而是統一運維,是未來的智能運維甚至雲運維。但是在落地過程中,我們還需要解決以下幾個問題:

◾ 實現統一運維。我們現在面臨的環境非常複雜,不是傳統意義上的單個機房或者一個IDC,而是一個多雲的環境,私有云、公有云,還有虛擬化平臺和未來的容器平臺等,不同的平臺有不同的邏輯,需要用不同的技能進行運維,導致對運維人員的要求比較高。所以我們希望能夠打破不同平臺之間的差異,用同一種方式對所有平臺進行運維。

◾ 打破運維隔離。目前各個運維團隊都是孤立作戰,互相之間缺乏協同合作。孤立運維會造成很大的困擾。比如在項目過程中,各個團隊都維護自己的利益,不願意主動認領問題並解決,這對工作效率是有很大的影響的。

◾ 規避手工運維。在目前的運維過程中還是存在非常多手工運維的操作,這會導致效率問題和安全問題。其次,頻繁地登錄服務器去做一些命令操作,也存在安全隱患。所以我們希望有一個平臺代替人工去做此類重複勞動,避免人爲的重複勞動和過多的登錄服務器。

◾ 運維人員知識固化。運維過程非常多的知識是保存在運維人員的大腦中的,這些知識非常寶貴,但是並沒有一個系統能夠把這些知識固化保存下來,讓其他的人員能反覆使用。保證當這些人員不在場的時候,團隊的運維能力也不會出現問題。

以上4點就是我們目前面臨的比較大的挑戰。

李同剛:企業上雲面分爲兩個階段,第一階段是IDC機房上雲,第二階段是技術架構上雲。技術架構上雲和業務程序的結合比較緊密,所以涉及兼容問題。很多企業有多雲的需求,如何讓基礎架構同時兼容兩個雲,這是亟待解決的問題。

期望未來在多雲的技術架構和技術協議上能夠達成共識,真正的降低企業跨雲的兼容性成本。

尤首智:我認爲企業上雲主要有以下4個難點:

◾ 遷移成本。基礎設施從傳統的IDC引入雲計算,是對IT的基礎設施和基礎架構的一次革新,而遷移過程中的穩定性和原有的管理方式也要重新打造,這的確是一個不小的工程。

◾ 安全和合規。數據從企業原有的IDC遷移到雲上,會有數據泄露的風險。

◾ SLA保障與掌控力。企業與公有云都簽有SLA的保障協議,公有云的SLA相比企業是比較高的,一般可以達到4個9,但公有云發生故障的時候企業會顯得束手無策。

◾ 長期開銷。前期的上雲是在一個固定的時間節點,也可以算出整體上雲的長期費用。但隨着企業的擴張以及業務類型的變化,會發生資源向某一方面傾斜,導致費用不可控。

陳剛:我主要分享關於大型企業在上雲過程中會面臨的三個挑戰。

◾ 大型企業可能會受到一些行業協會的強制要求,比如說證監會、保監會、銀監會等,要求保證數據的保密性和數據的安全性,這就導致了他們的很多數據不能用公共雲來完全解決,從而只能選擇建私有云,或者搭建集團內部的統一雲平臺來做混合雲解決方案,這其實就相當於一種變相的重複建設。

◾ 運維人員面臨技術轉型的挑戰。很多企業在上雲之前已經形成了實體機與虛擬機方面很成熟穩定的運維體系。在他們在上雲之後,運維人員的技能轉型就要面臨很大的挑戰,對現有運維人員的技能進行培訓轉型提升,或者招聘新的運維人員,都將是一個漫長的過程。

◾ 現有平臺與雲原生技術不匹配的挑戰。一些企業的平臺,無論是自然的、二次開發的或者乙方的資源,不一定會能跟雲原生技術服務完全匹配。他們上雲就會比中小企業的通用上雲難度翻倍,時間翻倍,成本翻倍,並且不一定保證轉型成功。

Q3 國內XOps的接受度與落地情況如何?

主持人:企業上雲對運維工作的挑戰與雲上的安全性、穩定性、兼容性、知識的可傳承性都密切相關,解決好這些問題,運維工作就能更好地開展。在國內,我們把各種XOps都統一稱爲自動化運維,企業對這種XOps的接受度怎麼樣?在各位接觸的過程中,有哪些不錯的自動化運維的實踐?

李同剛:自動化是運維領域一直在追求的話題。我會從兩個方面對自動化運維的落地情況進行分析。

◾ 第一點,自動化運維有大量的告警監控,如果數據量過大,就會造成告警無效。我們可以通過對歷史數據的積累和分析,總結出它的趨勢,然後通過自動化學習的方式和一些數學模型,自動給指標做閾值的調整。原先的告警是一個固化的值,但靠固定值不能做到足夠高的準確率,所以通過機器學習的方式,自動學習歷史數據的趨勢,達到自動告警。目前我們梳理了100多個指標,正在和阿里雲的 SLS服務進行對接。

◾ 第二點,自動分析故障根因。在網絡拓撲中,報警業務應該是感知最快的。如果整個服務到數據庫層到服務層鏈條的日誌是完整的話,理論上是可以根據業務上的故障,來推出這個故障到底是數據庫還是虛機或是其他的原因。

總之,從數據這個方向出發,我們希望能給運維領域帶來一些卓越且超出期望的成效。

尤首智:首先談一下DevOps理念,DevOps已經被國內很多的公司接受,核心優勢是提高人工效率,減少重複性的工作。從DevOps到AIOps是我們未來的風向標,能夠完成從人工決策人工執行到自動決策自動執行的演進。以下兩點是AIOps在Soul的落地情況:

◾ 第一點是資源成本把控。首先從資源申請層面把控,防止資源的浪費,再到服務水位的把控,自動開啓彈性擴縮容、業務指標感知、流量的自動切換和自動調度,最後是業務的自動熔斷機制。

◾ 第二點是業務監控層面。首先監控指標的分析,可以有助於我們快速定位問題的根因,其次對故障類型進行判斷,分析故障影響的人數、故障級別以及歷史故障的推薦,有助於快速解決故障。

陳剛:關於 XOps在國內落地的情況,我主要從兩個方面進行分析。

首先,國內的幾個一線互聯網大廠對XOps的理解應用都已經比較成熟了,甚至在某些領域,這些大廠本身就是XOps業務的風向標,同時在國際領域他們也都有自己的原創輸出。

其次,這兩年我主要是給國內的大型金融企業做DevOps轉型的諮詢和培訓。他們對DevOps還是處於初期的瞭解觀望再跟進的態度。同時,他們對AIOps、ChatOps、GITOps等也希望能夠同步跟進和了解。

比如今年10月份,華泰證券、浙江移動都通過了工信部下面信息通訊研究院頒發的AIOps能力證書,其中的能力包括異常檢測、告警收斂、根因分析和故障預測等。浦發銀行、國泰君安這些大型銀行證券也正在AIOps的能力建設以及認證的過程當中。

國內的XOps諮詢工作一般需要持續半年到一年,因爲在XOps落地過程當中的確有很多困難需要去克服,但是隻要我們一直堅持往前走,XOps國內一定會遍地開花。

陳炯:我們紅帽針對運維自動化這一塊也有比較完整的解決方案。從這麼多年實踐的角度來看,我們發現在國內的企業中用到自動化的場景主要有以下這幾點:

◾ 用自動化帶動標準化,通過自動化平臺的引入,幫助企業去建立一套標準化的體系,包括它的系統、平臺等等各種設置應該如何實現標準化。

◾ 通過自動化來實現系統的自動巡檢,自動配置管理等等一系列日常的管理。

◾ 使用自動化平臺幫助企業進行故障的根因分析,甚至故障的自愈。

◾ 幫助企業實現應用自動化發佈,甚至災備切換自動化等等。

自動化能實現的場景是非常豐富的,有多大的想象力就能夠實現多大的功能。

Q4 雲時代,運維人員核心競爭力何在?

主持人:總結來說,一線大廠對XOps的接受度和應用度是比較高的,但是放眼到整個行業的轉型方面,XOps還存在上升空間,比如體系化普及應用這方面

前面提到了上雲之後省錢省力更安全,但這是否意味着包括運維人員在內的好多崗位會被替代?雲時代的運維人員如何打造自己的核心競爭力?各位如何看待這個問題?

尤首智:我從三個方面來闡述我對這個問題的看法。

◾ 首先,要從觀念上改變。運維有一部分重複或簡單的工作,例如構建資源或底層基礎環境,這些是會被重度依賴的,卻不一定是必要的重複去做的。

◾ 其次,是工作重點的改變。上雲之後這部分重複或簡單的工作會被公有云自身的能力所替代。但對於運維人員來說,這並不是一件壞事,他們可以更多地關注業務的穩定性,也有更多的時間來提升自己,要勇敢的跳出舒適區域。

◾ 最後,如何理解與利用好公有云。我對公有云的理解是它可以滿足所有企業80%以上的需求,但幾乎無法滿足他們100%的需求。我們要利用好已有的80%更快更好的構建私有部分,從公司和業務的層面更快看到結果。運維的價值是提高業務穩定性,這是企業是最關心的一點,而這部分的能力由公有云來提供是一個很好的解決辦法。

陳剛:企業上了雲之後不需要那麼多運維人員,這些人是否就要面臨失業?我根據自己的經驗來對這個問題進行一個闡述。

前幾年我曾經參與過一個項目,對企業進行DevOps賦能,然後將應用向K8s遷徙,同時引入一些雲原生的實踐。在項目進行當中我需要帶領兩名同事從頭到尾進行技術的攻堅和探索,最終形成落地方案。

當時部門有20個左右的運維同事,大多還是以傳統的數據中心的運維技能以及實體機和虛擬機爲主。在轉型過程中,確實有一部分的運維人員擔心自身技術失去核心競爭力優勢,但是我們在轉型的過程中其實能夠積累很多最佳實踐方面的文檔和 PPT,在企業內部進行培訓和宣貫,爭取把想學習、想提升技能的運維同事及時地提升到公司需要的水平線上。

企業在上雲轉型過程中的運維人員,要麼對現有運維人員進行培訓提升技能來匹配轉型的要求,要麼從外部引入新的運維人員,沒有第三條路可以走。我相信只要運維人員有提升自己技能的願望,與時俱進,一定能夠穩步前進,並且運維人員站到雲端以後也可以對社會做出更多貢獻。

最後,現代社會市場競爭激烈,猶如逆水行舟,不進則退。在企業上雲的過程當中,確實也會淘汰一部分不願意進取轉型的低層次運維人員。其實這就是適者生存的概念,不只是在運維界,在有社會分工的地方,就會有優勝劣汰的機制。

陳炯:在 IT建設過程中,產品、流程和人員始終是繞不開的三個主要話題。企業上雲並不意味着運維人員的失業,而是新的環境和平臺下,我們對人員的要求發生了變化。

以前,運維人員只需要會打命令、寫代碼代碼和腳本,但是上雲以後就遠遠不夠了。他們需要去制定整個運維的體系標準和完整的運維流程,甚至要從閉環的角度來看一個全生命週期的管理。並且在對故障進行根因分析的時候,能從不同的角度自主地去發現。還有非常重要的一點,在構建環境的時候,能夠識別哪些軟件和系統能夠整合在一起,進行比較好的協同運作。

所以說,運維人員不是要被替代,而是他們的能力要得到很大的提升才能夠滿足未來 IT運維的需要。這是我的觀點,謝謝主持人。

李同剛:我覺得從另一方面講,這其實是一個機遇。

以前,運維人員是以懂各種中間件技術而引以爲傲,但其實這未必是運維崗位最有意義的事。運維本質上是要保證業務的穩定性和IT成本的合理性。但這兩個目標並不是靠技術來實現的,而是需要結合本公司的實際情況來制定解決方案,這是一整套的體系。

這一塊的能力目前來看機器是很難替代的,所以我們可以把一些簡單重複的事交給機器去做,人去做機器做不了的事。一方面,這樣對人員本身的技能是一個提升,另一方面,公司也能夠獲得直接的業務價值。

圓桌對話總結

主持人:確實容器、集羣技術對運維人員提出了很大的挑戰,但運維人員需要做的是積極迎接和學習新的技術。另外在上雲之後,運維人員可以多做一些機器做不了的事情,比如流程、規範等方面的制定。

企業上雲雖然還面臨着很多挑戰,但更多的是機遇。相信隨着企業運維體系的完善,新的運維技術的加持,運維人員核心能力的提升,雲上會越來越精彩,我們一起努力。

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載。 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章