刷新OpenStack最大規模集羣紀錄,智算中心操作系統有了新標杆

2020年初,一場以新基建之名的數字基礎設施建設熱潮,讓國人爲之興奮。所謂“新基建”也稱爲新型基礎設施,主要是指融合了雲計算、大數據、人工智能等新興數字技術的城市基礎設施,2020年4月中央明確“新基建”範圍,包括5G建設、大數據中心、人工智能等七大領域。新基建之所以重要,還在於它承擔了推動傳統基礎設施向新型基礎設施轉型的歷史重任,這在十三五與十四五之交具有格外重要的意義。

針對新基建以及大數據中心等具體的數字基礎設施,浪潮作爲國內老牌技術廠商以及全球第二大服務器廠商,在2020年4月提出了“智算中心”的概念,爲大規模數據中心的演進指明瞭方向。如果說大規模數據中心強調的是算力、性能、可靠性等,那麼智算中心更多強調的是算力的集約化,包括各種異構計算的整合以及雲、大數據、人工智能等平臺的協同打通。開放標準、集約高效、普適普惠,是智算中心的基本特徵。

從大規模數據中心到智算中心,其核心“操作系統”又將迎來怎樣的變化?2020年11月25日,浪潮在2020雲海創新論壇(IIF2020)上發佈了智算中心操作系統,向外界展示了對智算中心操作系統的構想及落地實踐——雲海OS完成了全球最大規模OpenStack單一集羣1000節點的雲數智融合實踐。

(浪潮信息副總裁張東)

潮信息副總裁張東表示,浪潮雲海OS以開源開放技術爲基礎、以新時期用戶需求爲出發點,不斷進化成爲開放、融合、敏捷、智能的操作系統,滿足新基建時代智算中心的要求,奠定了政企數字化轉型“雲數智”融合的基礎,是智算中心的中樞。

浪潮雲海OS經歷了從虛擬化管理到雲數據中心操作系統的演變,如今又進化爲智算中心操作系統,而其底座仍然是開源技術及工業標準硬件,從而滿足開放標準、普適普惠、集約高效的要求。

突破OpenStack大規模單一集羣

在11月25日舉辦的浪潮雲海創新論壇2020上,浪潮雲海發佈了全球最大規模OpenStack單一集羣達1000節點的雲數智融合實踐。浪潮雲海在2019年就完成了單一集羣500節點的測試,是當時基於OpenStack Rocky版本的全球最大規模單一集羣實踐。本次1000節點大規模測試,在規模、場景、性能等方面進行了全面突破,完成了從500節點到1000節點的升級,還刷新了今年4月雲海OS所取得的SPEC Cloud IaaS 測試紀錄,實現了量變到質變的躍遷。

中國信通院全程參與了兩次集羣的測試。中國信通院雲大所副所長慄蔚表示,OpenStack是當前主流的雲架構開源項目,逐漸成爲高速發展企業和成熟企業基礎IT架構的首選解決方案之一。OpenStack在小規模部署時,其性能和穩定性較爲穩定,開源特性和良好的社區支持也爲小規模部署提供了技術參考。隨着企業探索的不斷深入,大規模應用的需求越發迫切,OpenStack大規模雲集羣有待突破。

作爲全球頂級的開源項目之一,OpenStack已經走過了十年的歷程,成爲私有云的產業事實標準以及部分公有云的“底座”,是當前全球部署最爲廣泛的開源雲軟件。截止2020年,OpenStack發佈了22個版本,社區裏有超過40個項目,全球有超過1000萬的基於OpenStack的計算核心,在全球187個國家和地區有數十萬成員。今年10月,OpenStack基金會演進成爲Open Infrastructure Foundation開源基礎設施基金會,凸顯了融合人工智能、5G、大數據、邊緣計算等新型工作負載的定位。

一方面,OpenStack可以納管和支持融合的工作負載越來越多;另一方面,由於開源技術和複雜組件帶來的侷限性,導致當達到一定規模時,系統的運維難度陡增、併發性能降低,而通過對系統的合理優化方能滿足大規模節點部署的應用場景,保證系統的正常穩定運行,這就是浪潮雲海OpenStack大規模單一集羣測試的意義所在。

更大、更全、更高

浪潮在多年雲平臺建設的探索中發現,大型用戶的雲平臺實踐普遍面臨大規模的挑戰。隨着內外部用戶數量的增長,單一應用和服務的規模變得愈發龐大,需要同時部署數百甚至數千臺虛擬機。如果使用多個小規模集羣構建雲平臺,應用和服務的跨集羣部署、管理、升級會變得異常困難甚至無法實現,因此對單一集羣的規模產生了強烈的需求。

針對大型用戶對大規模雲平臺單一集羣的需求,浪潮雲海團隊在中國信通院的見證下開展了OpenStack大規模單一集羣的測試。浪潮雲計算與大數據產品線首席架構師亓開元表示,從2019年的OpenStack單一集羣500節點到今年的1000節點,不僅僅是更大規模的單一集羣,今年還加入了大數據和人工智能,測試集羣支撐的業務更全,整體系統達到的更高性能。

本次測試,浪潮雲海團隊在短短3天內完成了1000臺服務器部署,支撐傳統業務、雲原生業務、大數據業務、人工智能應用等,並刷新了SPEC Cloud基準測試世界紀錄:OpenStack實現3000個虛擬機高併發創建,密度可達5萬,30分鐘內完成百節點裸機發放;容器實現1000節點管理,3萬 POD併發創建,20萬POD管理,10萬應用管理;存儲實現240節點管理,10萬卷分佈式存儲,單節點1萬IOPS,單集羣240萬IOPS;SDN實現2到7層網絡10萬臺虛擬機統一管理配置,流量靈活調度。

亓開元強調,浪潮公司大力支持OpenStack大規模單一集羣的測試,僅本次測試用的1000臺服務器的成本就高達上億,是直接從生產線拉下來後送入老化線,其目標就是向用戶展示浪潮的交鑰匙工程能力。換言之,本次所測試實現的1000臺OpenStack大規模單一集羣,同樣的方案可以直接部署到用戶的數據中心,馬上就可獲得本次測試所實現的各種極致性能,例如金融和電信等行業都對1000節點單一集羣有着實際需求,因此1000節點單一集羣相應就極具行業參考規範價值。

而在1000節點之後,下一個測試規模是什麼?亓開元介紹,實際上在本次測試中也進行了1000節點集羣的多集羣連接測試,未來可以通過多集羣方式擴大到上萬節點,滿足用戶更大規模數據中心的未來需求。

從雲數據中心到智算中心

作爲OpenStack社區的重要成員之一,浪潮早在2015年就開始圍繞“開放、融合、敏捷”的理念,以OpenStack爲核心構建數據中心操作系統,通過敏捷開發的模式實現了虛擬、裸機、容器的統一管理及增強。尤其是在高性能、高效率、高可用、資源融合、多雲融合、雲數智融合以及智能運維、智能服務等方面持續進行優化創新,在開源版本基礎上融入了大量企業級增強和優化,打造了雲數智堅實的底座。

實際上,對於雲計算、大數據和人工智能計算來說,這是三種不同形態的計算方式,對於計算資源的要求和調度等有着各自的要求,那麼作爲智算中心操作系統又是如何實現雲數智融合的呢?這首先就需要對雲計算、大數據和人工智能等開源技術的深入掌握和深度理解,特別是需要掌握OpenStack雲計算“底座”的精深知識以及相關的工程實踐,而這就是1000節點單一集羣測試和實踐的重要價值。

對於浪潮雲海OS來說,不僅強調對OpenStack開源技術的掌握,更強調參與開源社區以及通過自己的實踐來回饋開源社區。例如在OpenStack第21個版本Ussuri和剛發佈的第22個版本Victoria中,浪潮在代碼提交數、完成藍圖數、起草藍圖數、補丁修復數和參與人天數均達到全球前列、中國第一。近年來,浪潮的社區貢獻主要集中在Nova(計算)、Cinder(塊存儲)、Cyborg(加速)、Vitrage(根因分析)、Manila(文件存儲)等核心模塊,並主導完成Nova通過Cyborg管理加速設備的特性、貢獻Inspur GPU、FPGA、NVMe SSD等硬件設備驅動,有效促進了人工智能、邊緣計算等新興領域的發展,今年還發布了Venus智能日誌管理開源項目,與業界共同構建開放統一的智能基礎設施。

而面向雲原生領域、滿足用戶容器化場景需求,浪潮基於微服務思想、以應用爲中心、面向私有云市場打造的企業級容器服務平臺,這就是浪潮雲海容器雲平臺InCloud K8S(簡稱 ICK8S),並於2020年9月發佈了V2.2版本。該版本新增了微服務治理功能,並在應用管理、應用部署、應用中心等方面全面升級,實現針對容器化業務場景的全面覆蓋。例如在最重要的微服務治理方面,ICK8S實現了無侵入式微服務治理——支持全流量治理、鏈路追蹤、灰度發佈等治理服務,治理實現與業務開發的完全解耦,平臺兼容多種微服務框架,已有微服務應用無需額外改造即可平滑遷移。

在面向人工智能和機器學習方面,大數據處理平臺浪潮雲海Insight入選了Forrester發佈中國預測分析和機器學習市場研究報告《Now Tech: Predictive Analytics And Machine Learning In China, Q3 2020》(簡稱PAML),浪潮與百度、阿里雲、騰訊雲等企業入選中國預測分析和機器學習市場第一陣營。浪潮雲海Insight平臺具備數據智能化分析挖掘、多數據源協同計算、大規模集羣一鍵式部署、異構平臺混合部署與資源精細化管理等領先技術特性。

正是有了前期在雲計算、大數據和人工智能等領域的技術佈局,如今浪潮雲海OS纔有可能升級到智算中心操作系統,特別是實踐了1000節點大規模單一融合集羣。浪潮以OpenStack、K8S等開放基礎設施爲底座,融入AIOps和人工智能訓練推理平臺,構建雲數智一體化平臺並提供智能化服務。“智算中心操作系統是智算中心的靈魂,能夠有效聯接下層硬件和上層服務,異構融合多種算力和多元場景,敏捷應對不同智算需求,以智能驅動創新”,浪潮信息副總裁張東就此表示。

總結來說:浪潮雲海OS向智算中心操作系統的升級,是面向未來政企用戶需求而提前進行的佈局。浪潮作爲互聯網市場的第一大服務器廠商,將互聯網對於新興技術的需求以及相應的技術方案沉澱和積累下來,再向傳統政企用戶擴散。無論是雲原生、大數據和人工智能等,真正要全面進入政企應用還要幾年的時間,而浪潮智算中心操作系統不僅爲新基建樹立了新標杆,更是爲十四五的政企數字化轉型立下了新標杆!(文/寧川)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章