中國頂尖技術團隊訪談錄(2021年第一季)

封面故事

對話中國移動:支撐數億用戶的基礎設施如何實施雲原生改造?

重磅訪談

專訪骨灰級開源愛好者吳晟:開源沒有黑魔法,兩年後泡沫將會破滅

技術實踐

vivo AI 計算平臺彈性分佈式訓練的探索和實踐
蘇寧基於服務層知識圖譜的真假告警判定
騰訊雲如何破解落地難題,成功實踐 DevSecOps?
基於 Impala 的網易有數 BI 查詢優化總結

技術管理

要打造高效團隊,你必須掌握這種方法

創新研究

智源聯合清華開源 FastMoE:首個支持 PyTorch 框架的 MoE 系統,萬億 AI 模型基石

封面故事|對話中國移動:支撐數億用戶的基礎設施如何實施雲原生改造?

嘉賓:張春、魏寶輝、鄭文雯、趙淳
採訪:鈺瑩、郭蕾
編輯:鈺瑩

導語:如今,數字化轉型已經成爲絕大多數企業重要且迫切的發展戰略之一。在這樣的戰略之下,企業上雲成爲大勢所趨,基於容器、微服務、DevOps、服務網格等新型雲原生技術正在深刻推動着企業 IT 變革,以實現全面數字化轉型。而中國移動作爲這批浪潮中的先行者,早已全面擁抱雲原生技術並自主創新研發了磐基容器雲、磐舟雲交付平臺。本期頂尖技術訪談錄,InfoQ走進中國移動信息技術中心,探索雲原生變革背後的故事。

近幾年,數字化轉型和雲原生改造成爲業界兩大熱詞,運營商也開始了與技術的又一次較量。作爲支撐數億用戶日常生活的必備基礎設施平臺,其改造難度是非常大的。本文,InfoQ走進中國移動信息技術中心,一起聊聊他們如何看待數字化轉型與雲原生的意義。爲什麼要做雲原生改造?決定改造後,人從哪找?團隊KPI咋定?流程是什麼樣的?傳統企業有必要自研嗎?轉型過程中有哪些注意事項…

爲什麼需要雲原生?如何推進?

從2008年開始,中國移動就一直在探索轉型升級之路,試圖抓住“數字經濟”帶來的發展機遇。2008年,電信運營商按照“六合三”的方案進行了重組,進一步加劇了三大運營商之間的競爭,中國移動憑藉着2G時代語音業務的網絡效應迅速成爲佼佼者。

隨着3G時代的到來,整個行業又開始面臨語音業務增長緩慢和收入減少的壓力。2013年12月,中國移動獲得固網寬帶牌照成爲全業務運營商。至此,三家運營商正式開啓全業務領域競爭。

4G時代,面對更加激烈的競爭局勢,中國移動提出“三條曲線”的發展策略,即:第一條曲線是中國移動語音和短彩信;第二條曲線是流量經營,主要是依靠4G的拉動;第三條曲線則是數字化服務。中國移動明確從網絡、終端和營銷三個方面向流量經營轉型,並且更注重第三條數字化服務曲線的發展。

5G時代,基於5G數字化網絡基礎設施,中國移動打造泛在接入、泛在聯接、泛在算力的信息高速,深化智慧運營創新,實現體驗經營躍升,更加有效保障數字經濟戰略落地。

2019年,中國移動決定從通信服務向空間更廣闊的信息服務轉型升級,圍繞“力量大廈”的總體思路,以高質量發展爲主線,打造基於規模的融合、融通、融智價值經營體系,構建高效協同的能力、合力、活力組織運營體系。

對於體量巨大的中國移動來說,轉型並不容易,這背後到底有哪些考慮呢?

InfoQ:您對數字化以及數字化轉型的理解是什麼?這在中國移動內部是如何執行的?

A:我之前也在想到底什麼是數字化,“轉型”二字又意味着什麼。衆所周知,中國移動是運營商,而運營商最開始做的事情在我看來就是數字化的,就是跟數字打交道的。那麼,數字化轉型是什麼呢?

轉型意味着變革,我覺得可以從三個層面理解:一是戰略層面的轉型,公司全力推進智慧中臺構建,持續匯聚共性能力、對內支撐更多的業務場景、對外實現能力共享,促進公司數智化運營和全社會數智化轉型;二是技術層面的轉型,雖然以前也用到很多數字化的技術,但傳統的IT技術與現在的雲計算、人工智能相比有很大不同,解決的問題和關注的重點都不相同,這是技術層面的轉型;三是業務轉型,運營商早期的主要業務是電話、短信,現如今隨着5G的出現,我們的業務越來越豐富。

綜上,中國移動明確了總體發展目標,即創世界一流企業,做網絡強國、數字中國、智慧社會主力軍。確立通過推進數智化轉型,實現高質量發展的發展主線,結合經濟社會數字化轉型“五縱三橫”的特徵,形成中國移動的戰略內核。

圍繞戰略目標,我們開始更加關注數字化的價值。以往我們關注的是技術本身可以解決的問題,現在把重心更多地放在數字化如何賦能業務發展,如何賦能商業模式轉型。這對IT提出了更高要求——即需要通過組織變革來支撐更高的目標,實現更高能力的鍛造。

注:五縱三橫指經濟社會數字化轉型呈現“五縱三橫”的新特徵。其中的五縱指的是基礎設施數字化、社會治理數字化、生產方式數字化、工作方式數字化、生活方式數字化;三橫指的是線上化、智能化、雲化。

InfoQ:我們做雲原生化改造的背景是什麼?這和數字化轉型的關係是什麼?

A:多年前,我們的IT系統承載在小型機、磁盤陣列、傳統商業數據庫上,傳統的IT架構,應用橫向擴展能力較差;2008年起,我們從小型機向X86演進,大型的企業級應用向分佈式服務化架構升級;2010年左右,我們引入虛擬化技術,大力推進基礎設施雲化,業務規模化擴展和靈活性得到提升,實現了底層資源的共享;2015年前後,我們逐漸從虛擬化向容器化過渡,不只是基礎架構在快速變革,應用架構和交付也在升級,把大型複雜軟件應用拆分成多個簡單應用,各應用之間松耦合,從而降低了系統複雜度,還可以做到獨立發佈部署、獨立擴展和跨語言編程,當然這一切的變化也將驅動我們研發、運維工作模式的轉變。

在我看來,以往通過虛擬化技術將一臺X86服務器虛擬化爲多個虛機,當成物理機使用,這樣的模式只解決了資源共享的問題,而云化不僅僅是基礎設施和平臺的變化,應用也需要做出調整,在架構設計、開發方式、部署維護等各個階段都基於雲的特點進行構建。雲原生正是以應用爲中心,應用開發之時便基於雲的方式。只有這樣才能更好地發揮出雲的優勢,更好地賦能業務發展。具體來講,我們對於應用的要求主要是指:

1.敏捷。隨着市場的快速發展,競爭日益激烈,對新功能的上線速度要求越來越高,我們需要化解高速的業務發展和系統穩定之間形成的矛盾,讓“大象”能夠起舞。

2.海量。我們需要支撐更多的互聯網新業務、新玩法,需要足以支撐海量、高併發、高性能的業務系統架構。

3.簡單。提高運維效率,解放勞動力。

在這樣的背景下,中國移動IT系統建設全面擁抱雲原生技術。

通過雲原生改造,原本直接運行在虛擬機或者物理機上的業務系統,如今以高內聚、低耦合的應用獨立運行在在容器裏。以前一個新的應用系統需要從下到上完全自己重新搭建,現在大部分底層共性能力可以複用,極大地提高了開發效率,降低了成本,這就是我們所說的厚PAAS、薄應用。

根據多年的實踐經驗,我們打造了磐基容器雲,以及磐舟雲交付平臺,面向內部IT系統提供承載和服務支撐,主要包括面向客戶服務和業務管理的業務支撐系統(簡稱BSS或B域)、面向通信網絡管理的網管支撐系統(簡稱OSS或O域)、面向企業內部管理的管理信息系統(簡稱MSS或M域)。

InfoQ:您方便介紹下整個雲原生的改造歷程是什麼樣的?

A: 中國移動是首個完成大規模、分佈式電信業務支撐系統X86化、容器化改造的運營商,領先同行業近兩年時間。最早啓動雲原生改造的系統叫網狀網,這個系統支撐了200多個業務平臺,700多個業務,包括金融類、互聯網類、全網業務訂購類、客服類、實時鑑權類、區塊鏈等業務,峯值交易量爲75萬筆/分鐘。完成改造後,在高可用、故障自愈等方面效果尤爲突出,當應用模塊升級或某個服務不可用時,服務可快速從容災節點拉起,用戶訪問無感知。

另一個實現雲原生改造的系統是中國移動集中化物聯網支撐系統。這個系統是物聯網產品集中化管理能力一點接入、統一運營的業務支撐系統,提供了端到端的業務受理、服務開通、計費賬務和綜合結算等能力,支撐億級連接高效運營。系統採用微服務化的設計理念,基於我們團隊自研的磐基容器雲平臺,快速構建敏捷開發和智能化運營的容器化業務系統。

截至目前,共有40多個系統運行在磐基容器雲上,集羣規模約6600臺服務器,業務容器數近4萬個。

在業務遷移上雲方面,我們總結並形成標準化的上雲規範和雲原生改造優秀實踐案例。跟業務部門對接的過程中,前期會有個佈道的過程,對租戶進行相關培訓,同時瞭解業務需求,完成梳理架構、容量預估,提供針對性的解決方案和指導;其次,業務部門採用微服務的設計理念,遵循“前端橫向整合,後端縱向解耦,服務提供與應用分離”的原則進行架構設計,完成容器化改造及微服務拆分;最後,逐步分離松耦合業務,完成部分流量切換驗證,最終完成業務部署上線。在指導業務遷移上雲的過程中,我們非常重視提前介入和收尾覆盤,做到三同步:同步監控、同步高可用、同步安全。

團隊人員及KPI制定

如火如荼的雲原生世界,大部分人才被雲廠商招致麾下,傳統企業如何組建合適的研發團隊呢?

InfoQ:您方便簡單介紹下目前我們部門的人員組成嗎?主要工作是什麼?

A:我們部門是中國移動信息技術中心(公司)下屬研發創新中心,還有一個牌子叫平臺能力共享中心。目前部門共300餘人,作爲公司創新驅動的引領者、核心能力的內化者、技術演進的研究者、共性能力平臺的運營者、核心測試能力的提供者,全面負責IT領域PAAS、AI、區塊鏈、IPA等平臺級產品的研發、測試、維護和運營推廣;雲原生平臺的研運工作是我們部門的核心工作之一。

InfoQ:確定改造之後,承擔雲原生改造的團隊人員大概來源是什麼?

A:雲原生平臺核心研發團隊近50人,包括架構設計、開發、運營、運維人員,承擔整體架構設計,演進方向及新技術跟蹤,容器雲、DevOps以及智能運維等模塊研發集成,爲各業務部門提供雲原生改造解決方案諮詢、支撐、部署和維護服務。

團隊成員一部分來源於公司內部, 在建設電信業務過程中多年積累的IT人才,抽調並重組,另一部分來源於社會招聘和校園招聘,我們也通過獵頭專門招聘有經驗的架構師。

我們更希望團隊員工知識更加全面。不僅對容器等雲原生技術方面有要求,也希望員工更多的瞭解中國移動爲什麼要做數智化轉型,要對運營商業務應用架構演進敏感,熱愛新技術,真正解決好現有系統的問題。綜上,我們對人才的整體要求可以概括爲“四懂”:懂需求,懂市場,懂客戶,懂技術。

InfoQ:您方便介紹下內部是如何對人員進行培訓的嗎?

A:數字化戰略方面,公司內部會定期組織“知識賦能行動”等系列培訓;雲原生技術分享方面,我們會請內部人員或者外請一些大廠的技術專家做分享;應用上雲改造和實踐方面,基於磐基容器雲平臺,爲租戶提供體系化的培訓課程,包括K8S應用管理及雲原生技術實踐。後面也會逐步完善認證體系,爲架構設計、開發、運維人員提供相應的培訓及認證服務,雲原生技術更新太快,需要我們的員工終身學習。

InfoQ:業務方的態度如何?

A:基於技術發展趨勢和公司戰略要求,各租戶對於數字化轉型意義的理解在逐漸深化,目前公司有序推進系統全面上雲,各部門積極配合IT系統雲原生改造。

通過雲原生改造,租戶發現上雲可以明顯提升資源使用率、提高應用高可用性,加快迭代上線速度;另外,部分開發運維工作可以交由雲原生平臺實現,業務部門可以更專注業務創新,創造更多的業務價值。

雲原生改造的整個過程對業務人員來說,也是學習提升、能力鍛造的過程,畢竟,雲原生技術是未來的發展趨勢。

InfoQ:你們整個團隊的KPI是什麼?

A:我們團隊的KPI有以下三個部分:一是研發方面,重視需求採集分析,以應用爲中心規劃、設計產品,解決業務問題並且完成升級,跟隨雲原生社區的技術發展,提升產品開發、交付效率。二是推廣應用方面,整個平臺在公司內部支撐系統的規模要不斷的提升,成爲IT系統的技術底座。三是穩定支撐方面,要求能快速定位故障,並對故障快速排查解決(單體應用或SOA架構,故障定位相對容易,應用微服務化改造後存在大量的微服務,故障很難快速定位、對症下藥,需要構建完善的監控體系和端到端服務跟蹤工具;我們想到另一個比較好的解決方案是智能運維——AIOps,進一步提升故障定位和解決效率),真正實現我們團隊提出的“乘舟上雲,穩如磐基”。

InfoQ:公司層面對完成雲原生改造有什麼目標嗎?

A:我們的目標是通過磐基容器雲平臺和磐舟雲交付平臺的打造,助力IT系統完成雲原生改造,逐步實現全雲化演進。

對於新建應用,要求雲上構建;對於存量的業務系統,雲原生改造是循序漸進的。結合雲原生價值和業務痛點,對於需求頻繁變更、大規模、分佈式架構的業務支撐系統優先改造;對於一些缺乏開發團隊維護的遺留系統、需求很少變化,以及業務邏輯耦合緊密、比較大的存量單體應用,暫緩改造。

另外,考慮到改造代價和價值, 全部“重構應用代碼”,並不是應用改造的唯一途徑,對很多仍然在發揮作用的存量應用來說,重構封裝應用代碼的“應用運行時”也是一種更穩妥、有效的形式。

自研的動力是什麼?如何選型?

在轉型的過程中,中國移動基於雲原生的理念,採用K8S和容器技術,自主研發了磐基容器雲以及磐舟雲交付平臺。磐基容器雲已經獲得CNCF 的一致性認證和可信雲容器平臺的認證,磐舟雲交付平臺也獲得平臺級的DevOps 解決方案先進級認證。目前,磐基容器雲平臺已經支撐內部IT系統40 餘個,覆蓋BMO三域;磐舟雲交付平臺也逐步規模化運營,已有30餘個系統正在使用這個平臺,實現了X86、ARM雙平面研發運行,大大增強了我們對IT系統軟件資產的自主可控能力。

磐基容器雲平臺架構圖

作爲運營商,中國移動爲什麼有動力自研技術呢?

InfoQ:作爲傳統企業,爲什麼我們有動力自研核心技術?


A:可以從兩個層面來看,在宏觀層面,國家鼓勵自主可控和科技創新,我們中國移動積極響應國家號召,大力推進核心能力內化,增強“端到端”自主可控能力,不斷培養科技創新人才。

在需求層面,外部產品更加通用,平臺的定製化程度及開發響應速度比較弱;不能很好的滿足我們的業務場景、運營運維流程、研發規範要求,業務系統共性能力也很難得以快速的沉澱。

雲原生改造的道路上,在構建、發佈、運行三大領域都有更多的開源項目可以選擇,我們可以站在巨人的肩膀上,引入、集成、優化和增強,讓自研過程更加輕鬆。

InfoQ:自研之前有做過選型對比嗎?

A:以往,合作伙伴開發的業務支撐系統在開發,運行過程中用到了容器雲產品。在生產過程中,我們發現通過容器雲平臺很好的解決了彈性伸縮、故障自愈、容災等問題;同時,我們對K8S的特性、包括一些關鍵組件的選型有了一定的積累。在此基礎上,我們開始自研,並對K8S、容器底層技術,做了一些封裝和優化,以提高其穩定性和安全性。

事實上,PaaS的範圍太大了,也不可能完全自研。我們也會根據租戶的需求,引入部分優秀組件快速地解決生產問題,如國產數據庫、國產中間件以及容器安全方面的能力。我們會通過聯合創新的方式,引入一些合作伙伴的高質量產品,實現生態鏈企業合作共贏。

容器雲研發期間,我們也在打造全棧全場景的混合架構,業務可以根據場景需求,在雙算力的平臺下融合部署,混合調度,實現業務能力互備,資源共享。

硬件層面,在X86 基礎上引入 ARM 算力,並向互聯網公司學習,結合雲原生改造需求,研發定製了雲原生容器服務器。

在操作系統層面,積極擁抱開源社區,中國移動擁有自研的操作系統,也在積極探索openEuler開源操作系統部署應用,並嘗試多元化容器運行時部署。

中間件層面,我們與東方通、中科院軟件所、電子技術標準化研究院、國家信息中心、工商銀行等單位一起中標了國家2020年基礎支撐軟件中間件項目,推動定製化中間件的研發和應用。

數據庫層面,聯合了業內5家企業進行聯合創新,在應用場景中進行測試驗證。通過不斷的驗證打磨,推動自主可控國產數據庫的成熟落地。

請勿“人云亦云”

任何熱門技術都逃不過“泡沫”,我們現在已然到了“不懂雲原生不好意思出門的”境地,而熱浪中總有喜歡看熱鬧不嫌事兒大的人,攪渾水的人以及淘金者。作爲親身實踐者,中國移動又有哪些好的建議呢?

InfoQ:我們可以理解爲雲原生平臺是某種形式的中臺嗎?

A:雲原生平臺實現了底層技術能力的複用,加快了應用上線速度,我們都認爲是一種形式的技術中臺,或者說數字化轉型的技術底座。

InfoQ:對於希望做雲原生改造的企業而言,您有哪些建議呢?

A:一是對於雲原生改造,企業需要有自己的總體規劃。系統整體架構未來要如何演進,各業務系統現存哪些問題和痛點,有哪些新的需求;二是雲原生改造對人員的要求比較高,要具備架構的自主掌控力;三是雲原生改造要循序漸進,平臺部門要制定明確的研發、交付、運維規範,指導業務系統有序上雲;四是要及時覆盤,及時評估上雲之後的效果和指標量化價值;五是運維支撐一定要跟上,包括安全體系,要構建完善的運維監控工具,解決好故障定位和監控難的問題;最後,構建一個成熟的系統往往需要一個相對比較長的運維和迭代過程,我們積極擁抱雲原生的同時,也要做好踩坑的準備,穩步前行。

嘉賓介紹:

張春 中國移動信息技術中心研發創新中心 副總經理

魏寶輝中國移動信息技術中心研發創新中心架構師

鄭文雯中國移動信息技術中心研發創新中心架構師

趙淳中國移動信息技術中心研發創新中心 運營總監

如果你正在傳統企業經歷了完整的數字化轉型過程或者正在互聯網公司進行創新技術的研發,並希望InfoQ可以關注並採訪你所在的技術團隊,可以添加記者微信:13051771597,請註明來意及公司名稱。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章