華爲雲亮相KubeCon EU 2024,以持續開源創新開啓智能時代

本文分享自華爲雲社區《華爲雲亮相KubeCon EU 2024,以持續開源創新開啓智能時代》,作者: 華爲雲頭條。

近日,在巴黎舉辦的雲原生頂級峯會KubeCon EU 2024上 ,華爲雲首席架構師顧炯炯在“Cloud Native x AI:以持續開源創新開啓智能時代”的主題演講中指出,雲原生和AI技術的融合,是推動產業深刻變革的關鍵所在。華爲雲將持續進行開源創新,與開發者共啓智能時代。

cke_147.png

華爲雲首席架構師顧炯炯發表演講

AI對於雲原生範式提出關鍵挑戰

在過去的幾年裏,雲原生徹底改變了傳統的IT系統,催化了互聯網和政府服務等領域的數字飛躍。雲原生範式帶來的新的可能性,例如閃電般的快速銷售和基於微服務治理的敏捷應用DevOps,已經深入人心。同時,人工智能的快速發展和廣泛採用,包括大規模模型,已經成爲行業智能的跳動心臟。

根據Epoch 2023年的調研數據,基礎模型所需的計算能力每18個月就會增長10倍,是摩爾定理揭示的通用計算能力增長率的5倍。AI帶來的新摩爾定律和大規模AI模型的主導地位對雲原生範式提出了挑戰,顧炯炯總結了其中關鍵的4點:首先,低GPU/NPU平均利用率導致AI訓練和推理的高成本。其次,大模型訓練集羣頻繁的失敗率限制了訓練效率。第三,大規模模型的複雜配置導致AI開發門檻高。第四,大規模的AI推理部署面臨着不可預測的最終用戶訪問延遲和數據隱私問題的風險。

華爲雲AI創新爲開發者迎接挑戰提供思路

隨着AI模型變得越來越大,對計算能力的需求也呈指數級增長。這種需求不僅給雲原生技術帶來了挑戰,也爲業界提供了創新機遇。顧炯炯分享了一些華爲雲在AI創新方面的故事,爲開發者解決這些挑戰提供了參考。

在雲原生邊緣計算平臺KubeEdge的基礎上,華爲雲實現了一個雲原生多機器人調度管理平臺。用戶可以通過自然語言命令在雲端輸入任務指令,由系統協調邊緣的多個機器人共同協作完成複雜任務。爲了克服自然語言命令理解、大量機器人高效調度管理以及跨類型機器人訪問管理的三個挑戰,該系統採用了雲端、邊緣節點和機器人三個部分的架構,通過大模型執行自然語言命令,並進行流量預測、任務分配和路由規劃。這一架構顯著提高了機器人平臺的靈活性,管理效率提升25%,系統部署週期縮短30%,新機器人的部署時間從月級縮短到天級。

中國某頂級內容分享社區,每月活躍用戶超過1億。它的核心服務之一是主頁上的推薦功能。推薦模型有近1000億個參數。訓練集羣有數千個計算節點。一個訓練作業需要數百個參數服務器和worker。因此,該社區對最優拓撲調度、高性能、高吞吐量有着強烈的需求。開源項目Volcano可以更好地支持在Kubernetes上運行的AI/ML工作負載,並提供了一系列作業管理和高級調度策略。Volcano項目引入了拓撲感知調度、裝箱、SLA感知調度等算法,幫助社區將整體訓練性能提升了20%,運維複雜度也大大降低。

Serverless AI引領雲原生髮展趨勢

如何高效、穩定地運行AI應用,同時降低運營成本,成爲擺在衆多企業和開發者面前的一大挑戰。爲此,華爲雲總結了雲原生AI平臺的關鍵要求,提出了一種全新的雲原生AI平臺理念——Serverless AI。

顧炯炯提到,從開發者的視角來看,Serverless AI致力於智能地推薦並行策略,讓複雜的訓練和推理任務變得輕而易舉。它提供自適應的GPU/NPU自動擴展功能,能夠根據工作負載的實時變化動態調整資源分配,確保任務的高效執行。同時,Serverless AI還維護着一個無故障的GPU/NPU集羣,讓開發者無需擔心硬件故障帶來的中斷風險。更值得一提的是,該平臺保持與主流AI框架的兼容性,讓開發者能夠無縫集成現有的AI工具和模型。

對於雲服務提供商而言,Serverless AI同樣具有深遠的意義。它不僅能夠提高GPU/NPU的利用率,使訓練、推理和開發混合工作負載得以高效運行,還能通過優化能效實現綠色計算,降低能耗成本。此外,Serverless AI平臺還能實現跨多個租戶的空間和時間GPU/NPU共享,提高資源的複用率。最重要的是,它爲訓練和推理任務提供了有保證的QoS和SLA,確保了服務質量和穩定性。

分論壇上,華爲雲技術專家提到,Kubernetes 上運行 AI/ML 工作負載的使用量不斷增加,許多公司在分佈於數據中心和各種 GPU 類型的多個 Kubernetes 集羣上構建雲原生 AI 平臺。 使用Karmada和Volcano,可輕鬆實現多集羣的GPU工作負載智能調度、集羣故障轉移支持,在保障集羣內和跨集羣的兩級調度一致性和效率,並平衡系統整體資源的利用率和不同優先級工作負載的 QoS,以應對大規模、異構的 GPU 環境管理中面臨的挑戰。

Karmada爲多雲和混合雲場景中的多集羣應用管理提供即時可用的自動化管理,越來越多的用戶在生產環境中使用Karmada構建靈活高效的解決方案。Karmada已於2023年正式升級爲CNCF孵化項目,期待與更多夥伴與開發者們共建繁榮社區。

針對AI分佈式訓練和大數據場景,Volcano Gang Scheduling解決了分佈式訓練任務中的無休止等待和死鎖問題, 任務拓撲和IO感知的調度,將分佈式訓練的傳輸延遲降至最低,性能提升31%,minResources解決了高併發場景下Spark driver和executor之間的資源競爭問題,合理規劃了並行度,性能提升39.9%。

“雲原生技術的敏捷性和異構AI計算平臺的創新性,將是提升AI生產力的關鍵。” 顧炯炯談到,未來,華爲雲將持續致力於開源創新,與業界同仁、夥伴共同開啓智能時代的新篇章。

 

點擊關注,第一時間瞭解華爲雲新鮮技術~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章