政企雲平臺“一雲多芯”路線全景圖

“一雲多芯”成爲政企雲平臺可被信賴的關鍵

近年來,“一雲多芯”成爲雲計算領域的一個熱詞,不僅代表着雲平臺向着開放化標準化發展,也反應出政企守護“IT安全生命線”的剛性要求。狹義的“一雲多芯”是指在一個雲平臺內可同時採用多種異構CPU等類型的國產芯片,而廣義的“一雲多芯”要求提供從CPU擴展到GPU、網絡設備,以及各類行業生態應用、客戶自建應用的全域兼容能力,能夠支持雲平臺從建設、應用遷移、到運維管理的全生命週期的能力要求,助力客戶構建安全可信的IT基礎設施。

“一雲多芯”的重要性不言而喻,然而企業在設計和實施“一雲多芯”策略時,要遵循怎樣的路線?又要通盤考慮哪些問題?本文將通過阿里雲在政企雲平臺“一雲多芯”的實踐經驗,爲政企落地一雲多芯戰略提供更多參考。

“一雲多芯”三步走,每步課題皆不同

以完整的應用上雲過程作爲主線,以“一雲多芯”路線作爲預設課題,雲平臺IT負責人的工作可以分爲“雲平臺建設、應用遷移/上雲、運維管理”三個階段,分別有不同的需求和痛點。

1. “一雲多芯”雲平臺建設

課題一:保障供應安全

供應鏈安全是政企建雲時的重要考慮因素之一,“無硬件綁定、可按需選擇硬件設備”是常見的基本要求。本着不把雞蛋放在一個籃子裏的原則,雲平臺需要兼容足夠多的主流芯片及廠商整機,來保障政企具備可持續的供應鏈體系。

在此階段,企業需要重點考察雲平臺對於國產硬件的支持能力,如CPU、GPU、國產網絡設備等的兼容能力。另外,在雲原生時代,全棧雲產品被廣泛採用,所以對於“多芯”的支持不能僅停留在部分雲產品上,而應該拓展至全棧產品,才能在後續實際應用中顯現出價值。

飛天企業版是阿里云爲政企構建的基於飛天雲計算操作系統的企業級雲平臺,其硬件兼容能力包括:

  • CPU:支持一雲6芯,具體包括intel、海光、鯤鵬、飛騰、倚天710等共6種芯片,支持近20家國產化芯片服務器廠商。以上芯片均支持全棧建雲,用戶可以根據需求進行靈活的多場景混部,從而獲得持續的硬件供應鏈安全保障。
  • GPU:支持NVDIA、海光DCU、寒武紀等主流芯片,且正在適配更多GPU。
  • 網絡設備:支持銳捷、華爲、紫光恆越、邁普、中興等國產網絡設備。

課題二:設備在線替換

在建設全國產芯片雲平臺的過程中,很多企業已有一個或多個雲平臺,如果完全採用新建的方式,會面臨“一次性投入巨大、業務跨雲遷移複雜、浪費已有設備投資”等問題。企業迫切希望能以“低成本、低風險”的方式,分期、逐步實現全量替換。

針對這個需求,阿里雲提出“在線替換技術”,企業不需要通過建設一朵全新的雲平臺來進行替換,而是在保證業務不停機的狀態下,通過逐步提升原有云平臺的國產硬件比例,直到實現最終的全量替換,從而用低成本和平穩的方式過渡到終態目標。這一技術的難點主要體現在兩個方面:

  • 高可用要求:產品需要具備集羣內、跨集羣遷移、多集羣切流、RMA替換等多種場景下的高可用能力,對上層業務無影響或者影響極低。
  • 成熟工具支撐:該方案需要完善的可視化工具體系支撐,如存儲、數據庫等跨集羣遷移、RMA下線的自動化體系支撐。

經過多個版本的迭代實踐與驗證,阿里雲飛天企業版已經具備了全棧產品的在線替換能力,目前已完成多個生產環境下intel芯片原地輪轉替代項目,並形成了完整的方法論、工具集、實施流程與最佳實踐,大大降低了企業建設國產雲平臺的總體投入成本。

課題三:支持普適場景

目前部分國產芯片在應對普通業務場景時遊刃有餘,但在面對一些對併發性能要求極高的重型應用、核心數據庫場景時,卻面臨投入成本過高或者性能無法滿足要求等問題,這也是很多企業在推進“一雲多芯”時普遍存在的疑慮。因此,“一雲多芯”解決方案應支持爲“普通應用”和“性能型應用”提供兼可運行的普適環境。

爲解決性能問題,阿里雲CIPU架構應運而生,通過軟硬一體的設計理念,自研神龍硬件和網絡協議棧保證了國產芯片的高性能。在一些大型金融客戶的業務場景所做的測試中,阿里雲CIPU架構體現瞭如下優勢:

  • 零損耗不抖動:計算節點0損耗,不會發生“VM管控與VM上應用”因資源競爭導致的業務抖動、性能下降。
  • 延時大幅下降:得益於自研的網絡協議棧和硬件加速,相比普通KVM節點,節點間訪問延時下降接近1倍。
  • 極致存儲性能:支持基於NVMe PR協議的共享盤,VPC網絡、EBS存儲採用芯片加速引擎實現快路徑轉發,單盤訪問延時下降20-30%,大幅超越傳統存儲架構(KVM+Ceph/SAN存儲等)。
  • 降低整體TCO:藉助“虛擬化0損耗、可用核數增加、應用間調用延時下降”等優勢,同樣機器規模可提供更大業務併發,能有效降低採購的總體設備數量,從而降低TCO。

2. 應用上雲與遷移

在雲平臺建設完成之後,企業將進入應用部署、適配的上雲階段。由於面臨異構指令集的場景,企業可能需要對應用進行適配,目標是平穩高效地完成遷移。

課題四:降低應用適配的成本與風險
企業應用一般可分爲兩類,一類是三方通用產品,另一類是客戶自行開發的業務應用。

在三方通用產品遷移過程中,企業需要考察雲平臺的生態兼容性。比如針對業內較爲常用的數據庫、中間件、行業應用產品,阿里雲成立了以“雲”爲載體的“生態認證中心”,提前與廣大合作伙伴進行了各種芯片的兼容性互認證,來降低企業自行適配的複雜度和工作量,提升了企業應用遷移的效率。

對於企業自行開發的應用,遷移可能牽涉到代碼的適配改造與性能調優,可利用遷雲工具幫助IT人員簡化遷移工作量。比如,在阿里雲飛天企業版一站式遷雲中心的工具體系裏,集成了相關的跨平臺工具:

  • 跨平臺代碼掃描

阿里雲飛天企業版提供從x86架構遷移到ARM等架構的代碼遷移掃描能力,只需將應用代碼上傳到一站式遷雲中心,即可獲得一份完整的代碼掃描報告,包含需要修改的代碼內容、代碼改造建議、總體工作量預估等,大大降低企業應用“黑盒適配”帶來的試錯成本。

  • JVM代碼調優

針對大量企業以java爲主的情況,阿里雲將自身多年來沉澱的跨平臺JVM調優實踐經驗集成至一站式遷雲中心的工具裏,客戶可以簡單設置遷移前後的應用場景、基礎配置等,平臺會自動給出優化的建議措施,降低性能調優的複雜度。

  • CentOS替換

針對CentOS停服場景,阿里雲飛天企業版一站式遷雲中心內置了CentOS遷移到國產Anolis的遷移評估工具。用戶只需要在原有CentOS系統運行對應的agent,將對應生成文件上傳一站式遷雲中心,即可獲得一份完整的OS遷移報告,提前瞭解和應對遷移風險項,高效完成CentOS的遷移。

3. 運維管理

在雲平臺建設、應用遷移上雲完成之後,企業將進入探索“用好雲”的階段。這一階段的核心課題是保障系統的穩定性,並基於“一雲多芯”的環境不斷提升運營運維效率。

課題五:因地制宜,發揮不同芯片的優勢

由於不同芯片具備不同的架構和性能,企業需要基於芯片特點進行應用部署,比如將不同的芯片用於生產、測試、核心應用、普通應用等不同的場景中。這要求企業的雲平臺要具備可以基於不同芯片進行實例創建與管理的能力。

以創建Maxcompute項目爲例,飛天企業版可以自動篩選出目前已部署的芯片集羣,並將可選擇的芯片提供給IT管理員選擇創建,後續所有的相關計算、存儲都可以基於芯片維度展開。

課題六:基於特定芯片的運維管理

經過一次或多次建設後,企業的雲平臺已經形成了多種芯片並存的局面,如何能夠方便查看不同芯片在雲平臺的使用和分佈情況成爲很多客戶運維中關注的重點。

飛天企業版幫助客戶更直觀、簡單地掌控多芯的現狀,如用戶在實例界面可以清楚地看到目前實例的芯片類型:

在雲管理平臺首頁,用戶可以直觀看到各種芯片服務器、雲實例的統計,便於進行資源的宏觀分析、調配與管理。

“一雲多芯” —— 雲計算是IT走向自主可控的關鍵路徑

作爲業內最早提出“一雲多芯”概念的雲計算廠商,阿里雲明白政企選擇“一雲多芯”路線主要是爲了應對未來的不確定性而“未雨綢繆”,所以阿里雲也會站在未來,在軟硬件生態方面堅定執行“開放兼容”的策略,長期爲企業提供平等的多芯的選擇。

如今,雲原生趨勢不可阻擋,其所帶來的分佈式特性,也能有效彌補單機芯片性能不足等問題。然而,雲廠商在將其全棧產品適配多芯的過程中,也會面臨更大的研發挑戰。比如阿里雲飛天企業版承載着80+雲產品,每個雲產品至少要適配6種芯片,還有各種容災、備份等複雜場景,並需要基於市場需求進行迭代和升級。阿里雲之所以可以從容應對,並不斷提升“一雲多芯”的產品技術水位,一方面得益於其完整的一雲多芯工程化體系能力,從研發投入側保障一雲多芯戰略的可持續性;另一方面,阿里雲所具有的“自研產品/掌握核心代碼”,是快速適配不同芯片、提升芯片性能表現的底氣所在。阿里雲飛天雲計算操作系統、IaaS、中間件、數據庫、大數據等全棧自研產品,在適配中具備內核級支持和改造能力,不依賴於開源社區,能有力支撐一雲多芯戰略的高效執行,從而成爲政企“一雲多芯”前進道路上的可靠夥伴。

目前,阿里雲基於多年來在“一雲多芯”領域的戰略投入和佈局,已在政務、金融、能源、電力、交通、醫療、通信、傳媒等全行業累計了數百個成功實踐。未來,阿里雲將繼續堅持“自主研發 + 全面兼容 + 普適開放”的理念,與政企一同實現各種複雜需求、複雜場景下的多芯混部,保護政企的供應鏈安全和業務平穩運行。

點擊立即免費試用雲產品 開啓雲上實踐之旅!

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章