挑戰摩爾定律極限,揭祕阿里雲神龍的"封神"之路

雲棲號資訊:【點擊查看更多行業資訊
在這裏您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

image

7月15日,阿里雲宣佈推出第三代神龍雲服務器,向全球提供頂級算力。與上一代相比,第三代神龍雲服務器的綜合性能提升高達160%,比目前全球最頂級的雲服務器還要快30%以上,整體算力全球最強。

第三代神龍雲服務器產品家族提供了最多208核、最大6TB內存,雲盤IOPS高達 100萬、網絡轉發高達2400萬、網絡帶寬高達100G的性能;支持CPU、GPU、NPU、FPGA等多種計算形態,具備3分鐘交付50萬核vCPU的極速擴容能力,是雲原生的最佳載體。

image
第三代神龍雲服務器

在去年推出的第三代神龍架構的基礎上,第三代神龍雲服務器再次將算力逼向極限,在摩爾定律失效的今天,阿里雲以整體算力平均每12個月翻一番的速度,向摩爾定律的極限發起挑戰。除了超越物理機的表現外,第三代神龍雲服務器還延續了其一貫的彈性能力,這一能力也持續爲釘釘、微博、12306、上汽集團、吉利汽車,以及雙十一等項目提供支持。

而這一切的背後,不僅是阿里雲十年來艱苦卓絕的技術攻堅,同時也是「中國創新」的縮影。

1 神龍的誕生

時間回到2019年的雙十一,這屆雙11創造了多項新的歷史記錄——全天交易額達到了2684億元、訂單峯值54.4萬/秒、菜鳥物流訂單數12.92億。這一個個驚天數字的背後,是阿里雲的支撐,這屆雙十一史無前例地將100%的業務全部架設到阿里雲上。而假如把時間再往前推個四五年,沒有神龍架構之前,這一切都是天方夜譚。是神龍架構高彈性、高穩定、高性能,支撐了雙十一這種挑戰性極大的項目。

image
第三代神龍雲服務器架構

本質上來說,神龍解決的問題,其實是虛擬化的「性能損耗之殤」。作爲雲計算的底層技術,虛擬化並不是什麼新鮮的詞彙,早在1974年,就有一篇名爲《Formal Requirement for Virtualizable Third Generation Architecture》的論文,爲未來40多年的虛擬化的演進奠定了理論基礎。它定義了什麼樣的技術才能叫做虛擬化,什麼樣的條件才能滿足虛擬化。1997年,斯坦福大學的教授創立了VMWare公司,把虛擬化技術的理論研究,落實到了實處。

由於在雲計算中,客戶購買的能力都是虛擬化的,例如CPU、內存等,這些虛擬化能力往往由虛擬化軟件來完成,這個過程中就會產生虛擬化性能與實際物理機性能之間有一個較大的差距,這個差距就是虛擬化的性能損耗。這意味着雲廠商沒法把物理機上的全部算力給到客戶,例如,一個32核的物理服務器,雲廠商只能把16核或者20核給到客戶,剩下的12核需要對存儲、網絡進行虛擬化,造成了極大的資源浪費。

不僅如此,傳統的虛擬化解決方案還存在資源爭搶、隔離性弱;算力損失、成本高;性能瓶頸明顯;難以支持邏輯服務等缺陷。

但在神龍出現之前,這些問題就像是「房間中的大象」,誰都能看到,但誰都不認爲這是什麼大問題。爲了解決這一問題,2016年阿里雲祕密啓動了一項代號爲“X-Dragon”的項目,也就是神龍的前身,並於2017年推出首款自研神龍雲服務器。神龍服務器採用軟硬一體的虛擬化架構方案,徹底解決了虛擬化性能損耗這一難題,不僅擁有超越物理機的性能,還擁有虛擬機的彈性體驗。

短短几年時間,神龍經過快速迭代,走過了軟件虛擬化、通用硬件虛擬化、專用硬件芯片虛擬化三個階段。神龍架構也已大規模應用於淘寶、天貓、菜鳥等阿里內部業務中。

2 軟硬結合,阿里雲彈性計算背後的「黑科技」

“隨着雲計算往縱深方向發展,軟硬一體和雲原生將成爲雲計算技術架構的主流。未來3-5年內,容器在IT架構裏面的佔比將達到一半以上,雲原生需要我們將虛擬化推向極致,實現更極致的啓動速度、併發能力、部署密度等。”在發佈會現場,阿里雲彈性計算負責人張獻濤談到虛擬化時這樣說道。

image

而在阿里雲彈性計算中,這一理念也被體現的淋漓盡致。從2010年發佈了ECS 1.0去服務中小企業和站長,到2015年發佈了ECS 2.0去服務12306搶票這樣具有挑戰性的場景,再到2017-2019通過神龍架構去承擔雙11這種世界級技術「大考」,阿里雲彈性計算從立項之初,每一次亮相都令人驚豔:

2011年,ECS率先支持在線遷移;
2012年,ECS爲天貓商家提供電商雲服務;
2015年,虛擬化的第一次架構升級完成,從Xen升級到KVM,同時實現業內首次全組件熱升級;
2017年,推出企業級ECS產品家族、首款神龍雲服務器面世,將虛擬化的損耗降爲0;
2018年,推出ESSD雲盤,單盤IOPS高達100萬,成爲阿里雲性能最強的企業級塊存儲服務;
2019年,推出第三代神龍架構,支持雙11核心系統100%上雲,同時推出第六代雲服務器ECS;

同樣,在這次發佈會中,阿里雲彈性計算團隊不僅帶來第三代神龍雲服務器,還帶來了阿里雲第六代增強型實例,全系搭配ESSD系列雲盤,存儲轉發能力最多提升四倍;支持10Gbps突發內網帶寬,單卷延時大幅下降;性能等級按需配置,在線無損變配;同時ESSD使用門檻大幅下降50%。Mysql和Redis性能提升超過15%,Nginx性能提升達100%。配合Alibaba Cloud Linux 2 LTS,啓動速度最多提升60%、運行時性能最多提升30%、穩定性最多提升50%。

image
阿里雲硬核自研之路

此外,阿里雲ECS的單實例穩定性也從原來的99.95%提升到了99.975%,跨AZ多實例穩定性從原來的99.99%提升到99.995%,均爲全球最高水準。

不僅如此,隨着容器逐漸成爲雲原生中最重要的應用,如何更好地與容器兼容,也是阿里雲彈性計算團隊長期思考的問題之一。經過幾年的探索,阿里雲彈性計算團隊逐漸發現神龍裸金屬服務器,可以實現高於同規格物理機的性能,差距可以達到20%-30%之多。這背後來源於團隊對於神龍架構的創新,讓容器網絡存儲的一些流量可以通過神龍芯片進行隔離,進而使神龍裸金屬服務器和容器,成爲了一對「黃金組合」。

爲了計算效率推向極致,這種軟硬結合的創新不在少數。比如阿里雲彈性計算團隊還自主研發了盤古存儲平臺、洛神虛擬網絡系統、含光芯片、交換機,甚至還在和英特爾這樣的公司一起,對深入定製CPU進行研究。

經過10年的發展和這些「黑科技」的加持,如今阿里雲已具備服務各行各業客戶的能力。用張獻濤的話說:“10年,我們重構了整個計算的服務模式。”

3 雲計算的下一個十年

在張獻濤看來,雲計算的下一個十年應該圍繞「不斷擴展服務客戶的能力」來展開,這其中包括生態更爲豐富的ECS產品家族,例如第六代增強型實例、第七代高主頻實例、內存增強硬實例、新一代GPU和NPU實例等。

此外,還會包含一些對於細分場景的支持,包括上面提到的容器、計算密集型場景、內存密集型場景、異構計算等場景。而對於近年來比較火的AI領域,也同樣會有所支持,包括自研的神龍AI加速器工具AIACC,它可以在對AI框架不進行任何侵入的情況下,大幅提升對GPU、NPU、FPGA使用的性價比。在AIACC下,圖像分類的性能會有100%以上的提升,圖像識別性能也會提高3倍。

這再次印證了阿里雲滿足多樣化行業需求的能力。

從進化的角度而言,計算形態的發展有兩條脈絡:一條是用戶對計算的需求“從弱到強”(從x86通用計算,到IO密集性計算,到異構計算,再到行業高性能計算),另一條是用戶獲取計算方式的“從重到輕”(從物理機,到虛擬機,到容器,到函數計算)。這兩條脈絡剛好構成了一個完整的座標系,在這個座標系中,阿里雲一邊在計算性能的極限上去突破,一方面也持續將更友好的虛擬化體驗給到用戶。

在這樣的進化之下,未來還有哪些領域將被賦能和重塑?我們拭目以待!

【雲棲號在線課堂】每天都有產品技術專家分享!
課程地址:https://yqh.aliyun.com/live

立即加入社羣,與專家面對面,及時瞭解課程最新動態!
【雲棲號在線課堂 社羣】https://c.tb.cn/F3.Z8gvnK

原文發佈時間:2020-07-16
本文作者:Aholiab
本文來自:“CSDN”,瞭解相關信息可以關注“CSDN

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章