[轉帖]華爲鯤鵬930歸來,ARM成爲服務器趨勢

https://zhuanlan.zhihu.com/p/675438893

 

今年8月,Mate60搭載的麒麟9000S歸來,12月3日,筆記本L420搭載了麒麟9006C也已經上市;當年數據中心CPU領域叱吒風雲的鯤鵬920,什麼時候推出下一代?

2023年12月29日,華爲雲鯤鵬通用計算增強型實例kC2正式開啓公測。官方產品鯤鵬920,我認爲這就是930,後面會詳細分解。這是繼2019年華爲雲推出的首款鯤鵬實例kC1後,歷經4年多的系統級優化和產品打磨,kC2實例在軟、硬及軟硬協同方面實現了全方位升級。

官方稱謂鯤鵬920,本人推測這就是傳聞已久的930,下文都稱之爲930;雲上計算產品ECS叫kc2。參數對比分析如下:

  kC1 kC2 分析
Name 鯤鵬920 鯤鵬930 官方依然920
Core 60 64*2 KVM->NUMA架構+DPU
Freq 2.6G 2.9G 主頻提升
Memory 3200×8 5200×8 內存帶寬1.6倍,帶來30%性能收益
Perf 100% 130% 應用場景提升30%
Vector NEON 128b SVE 256b 單核算力翻倍

DDR controller可以重新升級,從過去的2666->3200,再到今天的DDR5 5200MT,實現了內存帶寬飛躍。

同時128core的核密度,來自2soket NUMA互聯實現(本人分析);鯤鵬920首創了ARM領域NUMA互聯先河;同樣對比,Ampere的ARM芯片和Graviton2、倚天710都沒有很好地解決NUMA互聯問題。本次鯤鵬930用了HCCS實現兩Socket高速互聯、Cache一致性(920已經具備,雲上產品未落)。

 

華爲雲上ECS產品kc1、kc2規格如下

規格名稱 計算 網絡
鯤鵬通用計算增強型kC2 CPU/內存配比:1:2/1:4vCPU數量範圍:2-128處理器:鯤鵬920基頻:2.9GHz 最大網絡收發包:3200萬PPS最大內網帶寬:100Gbps
鯤鵬通用計算增強型kC1 CPU/內存配比:1:1/1:2/1:4vCPU數量範圍:1-60處理器:鯤鵬920處理器基頻:2.6GHz 最大網絡收發包:400萬PPS最大內網帶寬:30Gbps

關於應用場景和性能提升,以下是官方發佈信息,以及本人分析解讀

華爲雲鯤鵬kC2實例具備三大核心優勢:

l 性能升級

華爲雲從硬件、虛擬化、資源調度、Guest OS及應用軟件等多個維度進行了40餘項深度優化,在計算處理時延、內存性能、調度算法、應用編譯等方面精心打磨,確保了kC2在雲服務器性能上的卓越表現。在計算方面,綜合計算性能優於業界同類產品25%,較kC1提升一倍。在網絡方面,最大支持100G網絡帶寬,同時搭載RDMA網絡,網絡時延最低7us。在存儲方面:軟硬件結合,通過IO全路徑優化,IO時延降低15%,IOPS性能提升60%。

【解讀】比kc1提升一倍,Vector從過去的NEON 128bit提升到SVE256bit,HPC場景帶來巨大收益。

l 安全升級

在支持國密算法基礎上,安全特性再升級。提供VPC加密、存儲加密、Enclave機密計算能力,從計算、網絡、存儲等多個維度爲客戶提供安全保障,同步支持vTPM特性,構築客戶虛擬機在啓動過程的可信能力,保護系統完整性。此外,還支持虛擬化無感熱升級能力,輕鬆實現系統安全漏洞快速修復。

【解讀】主要收益來自擎天DPU,帶寬更大,支持網絡加密

l 高性價比

相對於X86架構實例,鯤鵬雲服務器具備30%的價格優勢。通用計算場景下,kC2較上一代產品性能提升近一倍,在典型場景應用加速的場景下,額外會帶來30%以上的性能提升。

【解讀】比kc1性能提升1倍,推測128​c vs 64c收益;​額外30%來自內存帶寬60%收益;

華爲雲鯤鵬kC2在典型應用場景性能表現優異:Nginx部署基於華爲雲在Nginx場景下的系統級調優經驗,kC2在網絡鏈接密集型應用上加速效果明顯:HTTP/HTTPS長鏈接性能將優於上一代實例160~200%,HTTP/HTTPS短鏈接性能較上一代實例分別提升150%及70%。

【解讀】Nginx是網絡密集應用,ARM很容易把網卡PPS規格打滿,主要來自擎天DPU,3200萬 vs 400萬,整機8倍,per core4倍​;因此Nginx比上一代提高200%;短連接的性能瓶頸完全是DPU能力

MySQL數據庫得益於在鯤鵬算力上積累的大量MySQL數據庫優化經驗,華爲雲kC2實例在綜合能力上表現出色,通過使能加速庫及HCE OS上的性能調優,業務將得到130%的性能提升。

【解讀】由於初代920從移動端修改到DC,架構設計不夠徹底。樂高架構+環形Node;在Cache數據共享,鎖處理方面的限制,數據庫很難發揮優勢。

根據三方評測,kc1 RDS-MySQL性能是x86的1/2,kc1是100%的話,x86(Icelake)大概200%,本次kc2​性能達到kc1的230%倍;也就是超過x86 15%。

另外,MySQL消耗內存帶寬比較大,本次MySQL性能收益一部分來自內存帶寬1.6x提升;提升130%=2.3倍;其他收益來源不明確,難道修改了core互聯架構、Cache架構?

高性能計算在高性能計算場景產品持續升級,一方面,kC2支持SVE指令加速,同時位寬擴展一倍,疊加數學庫的加速能力,使得計算性能得到大幅度提升,在HPC Linpack場景下,性能優於上一代實例3倍。同時,kC2提供低時延RDMA網絡,基於網絡拓撲的親和性調度,進一步將時延降到最低。另一方面,kC2基於定頻物理核提供穩定的算力輸出,將帶給客戶更加穩定的性能體驗。編解碼短視頻/直播是當下最流行的應用之一,算力訴求日趨增大,其中X264/X265轉碼是最典型的應用場景。基於該場景,華爲雲在SVE虛擬化、BoostKit加速庫、畢昇編譯器等方面進行大量的優化,在X265和X264轉碼場景帶來了130~150%的性能提升。四年磨一劍, kC2實例在極致性價比、高等級安全防護、系統級穩定性、生態遷移易用性等方面全維度升級,在後續鯤鵬雲服務的產品演進過程中,將持續加強系統級軟硬融合能力,爲客戶提供更優質的服務。

【解讀】 kC2支持SVE指令加速,同時位寬擴展一倍;NEON128b升級到SVE256;結合主頻、內存帶寬提升,性能3倍差不多;

總結:

一,技術方面,鯤鵬技術升級:

1. 核數:本次kc2具備128core,應該是64c×2Numa實現,核密度沒有提升

2. 主頻:2.6Ghz升級到2.9Ghz,SOC供電做了優化;性能提升10%

3. 內存:DDR controller可以單獨升級,獲得內存帶寬紅利,提高到1.6倍;

4. NUMA最多可以支持4個,雲上kc2採用了2路架構;kc1 KVM虛擬化,受到很多限制,kc1只推出60core產品。

二,鯤鵬產品和商業化

鯤鵬920發貨量200萬片(估),2020年,趁斷供潮危機,攻入了大部分互聯網大客戶,這部分客戶議價能力強,性能要求高;同時,隨着Intel服務器的持續供應,以及XC市場的高利潤誘惑,鯤鵬轉向利基市場。

從核心密度,Cache容量未有明顯提升可見,鯤鵬930應該與上一代相同,採用過插畫7nm製程;發揮華爲解決方案能力,從DPU、OS、編譯器等多個方面進行了大幅度優化。在政府金融等自主可控領域,依然是競爭力佼佼者。爲IT安全產業繼續扮演主導角色。

三,通用算力的未來

國內ARM服務器整體來看,XC行業鯤鵬、飛騰爲主;開放的商業化市場裏面,服務器主要玩家有安培Ampere Altra/Max/One,雲上的主要玩家是阿里雲的倚天710。 根據三方評測,倚天性能在前面提到的數據庫、大數據是比kc1要高1.5-2倍性能,kc2本次升,部分實現領先,多數場景級縮小了差距。

AWS V1架構的Graviton3 11月份在國內上線,V2架構的Gaviton4已經全球發佈,微軟ARM N2芯片今年Cobalt 100發佈,Google 基於Poseidon核的ARM芯片已經在路上。此外,國內ARM平臺字節跳動、外鴻鈞微的芯片,24年也會看到;

如今製程紅利不在,面對功耗牆瓶頸、低碳經濟戰略,ARM芯片必然成爲未來趨勢。巨頭們已經厲兵秣馬,嚴陣以待。大戰來臨的黎明靜悄悄,技術革命浪潮湧來,你武裝好了嗎?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章