[转帖]华为鲲鹏930归来,ARM成为服务器趋势

https://zhuanlan.zhihu.com/p/675438893

 

今年8月,Mate60搭载的麒麟9000S归来,12月3日,笔记本L420搭载了麒麟9006C也已经上市;当年数据中心CPU领域叱咤风云的鲲鹏920,什么时候推出下一代?

2023年12月29日,华为云鲲鹏通用计算增强型实例kC2正式开启公测。官方产品鲲鹏920,我认为这就是930,后面会详细分解。这是继2019年华为云推出的首款鲲鹏实例kC1后,历经4年多的系统级优化和产品打磨,kC2实例在软、硬及软硬协同方面实现了全方位升级。

官方称谓鲲鹏920,本人推测这就是传闻已久的930,下文都称之为930;云上计算产品ECS叫kc2。参数对比分析如下:

  kC1 kC2 分析
Name 鲲鹏920 鲲鹏930 官方依然920
Core 60 64*2 KVM->NUMA架构+DPU
Freq 2.6G 2.9G 主频提升
Memory 3200×8 5200×8 内存带宽1.6倍,带来30%性能收益
Perf 100% 130% 应用场景提升30%
Vector NEON 128b SVE 256b 单核算力翻倍

DDR controller可以重新升级,从过去的2666->3200,再到今天的DDR5 5200MT,实现了内存带宽飞跃。

同时128core的核密度,来自2soket NUMA互联实现(本人分析);鲲鹏920首创了ARM领域NUMA互联先河;同样对比,Ampere的ARM芯片和Graviton2、倚天710都没有很好地解决NUMA互联问题。本次鲲鹏930用了HCCS实现两Socket高速互联、Cache一致性(920已经具备,云上产品未落)。

 

华为云上ECS产品kc1、kc2规格如下

规格名称 计算 网络
鲲鹏通用计算增强型kC2 CPU/内存配比:1:2/1:4vCPU数量范围:2-128处理器:鲲鹏920基频:2.9GHz 最大网络收发包:3200万PPS最大内网带宽:100Gbps
鲲鹏通用计算增强型kC1 CPU/内存配比:1:1/1:2/1:4vCPU数量范围:1-60处理器:鲲鹏920处理器基频:2.6GHz 最大网络收发包:400万PPS最大内网带宽:30Gbps

关于应用场景和性能提升,以下是官方发布信息,以及本人分析解读

华为云鲲鹏kC2实例具备三大核心优势:

l 性能升级

华为云从硬件、虚拟化、资源调度、Guest OS及应用软件等多个维度进行了40余项深度优化,在计算处理时延、内存性能、调度算法、应用编译等方面精心打磨,确保了kC2在云服务器性能上的卓越表现。在计算方面,综合计算性能优于业界同类产品25%,较kC1提升一倍。在网络方面,最大支持100G网络带宽,同时搭载RDMA网络,网络时延最低7us。在存储方面:软硬件结合,通过IO全路径优化,IO时延降低15%,IOPS性能提升60%。

【解读】比kc1提升一倍,Vector从过去的NEON 128bit提升到SVE256bit,HPC场景带来巨大收益。

l 安全升级

在支持国密算法基础上,安全特性再升级。提供VPC加密、存储加密、Enclave机密计算能力,从计算、网络、存储等多个维度为客户提供安全保障,同步支持vTPM特性,构筑客户虚拟机在启动过程的可信能力,保护系统完整性。此外,还支持虚拟化无感热升级能力,轻松实现系统安全漏洞快速修复。

【解读】主要收益来自擎天DPU,带宽更大,支持网络加密

l 高性价比

相对于X86架构实例,鲲鹏云服务器具备30%的价格优势。通用计算场景下,kC2较上一代产品性能提升近一倍,在典型场景应用加速的场景下,额外会带来30%以上的性能提升。

【解读】比kc1性能提升1倍,推测128​c vs 64c收益;​额外30%来自内存带宽60%收益;

华为云鲲鹏kC2在典型应用场景性能表现优异:Nginx部署基于华为云在Nginx场景下的系统级调优经验,kC2在网络链接密集型应用上加速效果明显:HTTP/HTTPS长链接性能将优于上一代实例160~200%,HTTP/HTTPS短链接性能较上一代实例分别提升150%及70%。

【解读】Nginx是网络密集应用,ARM很容易把网卡PPS规格打满,主要来自擎天DPU,3200万 vs 400万,整机8倍,per core4倍​;因此Nginx比上一代提高200%;短连接的性能瓶颈完全是DPU能力

MySQL数据库得益于在鲲鹏算力上积累的大量MySQL数据库优化经验,华为云kC2实例在综合能力上表现出色,通过使能加速库及HCE OS上的性能调优,业务将得到130%的性能提升。

【解读】由于初代920从移动端修改到DC,架构设计不够彻底。乐高架构+环形Node;在Cache数据共享,锁处理方面的限制,数据库很难发挥优势。

根据三方评测,kc1 RDS-MySQL性能是x86的1/2,kc1是100%的话,x86(Icelake)大概200%,本次kc2​性能达到kc1的230%倍;也就是超过x86 15%。

另外,MySQL消耗内存带宽比较大,本次MySQL性能收益一部分来自内存带宽1.6x提升;提升130%=2.3倍;其他收益来源不明确,难道修改了core互联架构、Cache架构?

高性能计算在高性能计算场景产品持续升级,一方面,kC2支持SVE指令加速,同时位宽扩展一倍,叠加数学库的加速能力,使得计算性能得到大幅度提升,在HPC Linpack场景下,性能优于上一代实例3倍。同时,kC2提供低时延RDMA网络,基于网络拓扑的亲和性调度,进一步将时延降到最低。另一方面,kC2基于定频物理核提供稳定的算力输出,将带给客户更加稳定的性能体验。编解码短视频/直播是当下最流行的应用之一,算力诉求日趋增大,其中X264/X265转码是最典型的应用场景。基于该场景,华为云在SVE虚拟化、BoostKit加速库、毕昇编译器等方面进行大量的优化,在X265和X264转码场景带来了130~150%的性能提升。四年磨一剑, kC2实例在极致性价比、高等级安全防护、系统级稳定性、生态迁移易用性等方面全维度升级,在后续鲲鹏云服务的产品演进过程中,将持续加强系统级软硬融合能力,为客户提供更优质的服务。

【解读】 kC2支持SVE指令加速,同时位宽扩展一倍;NEON128b升级到SVE256;结合主频、内存带宽提升,性能3倍差不多;

总结:

一,技术方面,鲲鹏技术升级:

1. 核数:本次kc2具备128core,应该是64c×2Numa实现,核密度没有提升

2. 主频:2.6Ghz升级到2.9Ghz,SOC供电做了优化;性能提升10%

3. 内存:DDR controller可以单独升级,获得内存带宽红利,提高到1.6倍;

4. NUMA最多可以支持4个,云上kc2采用了2路架构;kc1 KVM虚拟化,受到很多限制,kc1只推出60core产品。

二,鲲鹏产品和商业化

鲲鹏920发货量200万片(估),2020年,趁断供潮危机,攻入了大部分互联网大客户,这部分客户议价能力强,性能要求高;同时,随着Intel服务器的持续供应,以及XC市场的高利润诱惑,鲲鹏转向利基市场。

从核心密度,Cache容量未有明显提升可见,鲲鹏930应该与上一代相同,采用过插画7nm制程;发挥华为解决方案能力,从DPU、OS、编译器等多个方面进行了大幅度优化。在政府金融等自主可控领域,依然是竞争力佼佼者。为IT安全产业继续扮演主导角色。

三,通用算力的未来

国内ARM服务器整体来看,XC行业鲲鹏、飞腾为主;开放的商业化市场里面,服务器主要玩家有安培Ampere Altra/Max/One,云上的主要玩家是阿里云的倚天710。 根据三方评测,倚天性能在前面提到的数据库、大数据是比kc1要高1.5-2倍性能,kc2本次升,部分实现领先,多数场景级缩小了差距。

AWS V1架构的Graviton3 11月份在国内上线,V2架构的Gaviton4已经全球发布,微软ARM N2芯片今年Cobalt 100发布,Google 基于Poseidon核的ARM芯片已经在路上。此外,国内ARM平台字节跳动、外鸿钧微的芯片,24年也会看到;

如今制程红利不在,面对功耗墙瓶颈、低碳经济战略,ARM芯片必然成为未来趋势。巨头们已经厉兵秣马,严阵以待。大战来临的黎明静悄悄,技术革命浪潮涌来,你武装好了吗?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章