百度智能云可编程网关技术升级,为AI原生云打造10T级高速智能云网络


随着数字化转型和智能化升级的加速,更多的企业级应用开始基于多云、混合云、边缘云等新模式构建,比如自动驾驶、车路协同、物联网、电商、视频、游戏等。这些应用对网络提出了更高的要求,尤其是对云网关产生了重大挑战:


  • 面对动辄 T 级别的带宽需求,以及业务流量突发的场景,采用传统 x86集群方案会导致集群规模超大,容易出现扩容周期长、集群流量负载不均等问题。

  • 面对边缘节点的机房空间和能耗均有限的问题,统一各类网关设备,减少对机架位的占用,同时降低能耗以符合碳达峰的要求,成为必须解决的难题。


为了更好地应对以上挑战,百度智能云推出了基于可编程硬件的新一代云网关技术方案,并对专线网关、云智能网、边缘计算节点、弹性公网 IP、流日志等产品进行了升级,满足 AI 原生云时代10T 级别的数据流通和管理需求。


百度智能云网关从1.03.0的技术演进


最早的网关采用专用硬件实现。随着对灵活性的需求以及 X86能力的提升,网关逐步从专有硬件转变为 X86集群。


在人工智能、大数据应用的普及下,数据流通量级大幅增长,单纯依靠 X86服务器集群已经难以应对成百倍的带宽增长。业界普遍开始采用软件+硬件 Offload 加速的方案。这也是百度智能云网关1.0的技术方案。


多云、混合云、边缘云等新的云计算架构的应用,数据流通量级继续爆发式增长,导致软件+硬件 Offload 加速的方案也难以满足需求,业界开始尝试采用可编程硬件解决问题。


百度智能云基于可编程硬件升级了自己的技术方案,相继推出了网关2.03.0技术方案。


其中,网关2.0技术方案,对中心云的相关网络产品进行了全面升级,已经规模化部署上线。网关3.0技术方案,通过引入新的 UNP 架构,将带宽能力升级了一倍,业务表项能力升级了百倍,在边缘云和中心云已逐步开始落地。


应对客户不同场景需求的产品家族


我们将在下文对应用了百度智能云网关2.03.0技术方案的产品进行介绍,包括新特性和典型案例。



多云互联场景:专线网关


专线网关是 VPC 打通用户 IDC 或者多云之间实现内网互联的重要产品。为了满足客户对专线的海量带宽和频繁扩容的需求,百度智能云的专线网关通过可编程硬件部分负责处理海量带宽、低时延、有限配置规模场景下的业务流量,对于其他流量不大的场景则全部交由 X86软件网关处理。


>> 客户实践案例


某电商客户采用多云战略,在百度智能云和友商云之间搭建了10T 级带宽的混合云专线。曾经至少需要600 X86软件网关集群,现在只需要16台可编程硬件网关即可实现多云间的海量资源对大吞吐带宽、超稳低时延的需求。



跨地域互联场景:云智能网


云智能网 CSN 实现了不同地域 VPC 之间、VPC 与本地数据中心之间的高性能、低延迟的网络互通。客户可以基于云智能网打造企业级云上全球一张网。相比传统的对等连接方式,云智能网的组网更加灵活。通过可编程硬件网关 TGW,云智能网提供高吞吐接入的同时,也提供了灵活的路由策略和网络 QoS 等能力,并且可以利用百度智能云的骨干网实现多 VPC 跨地域互联的智能选路优化。


>> 客户实践案例:


某金融客户通过云智能网 CSN 打通了云中心地域和边缘节点的算力和存储资源,并提供 T 级别的网络吞吐能力,实现了全国范围的业务部署和近源计算。



流量智能调度场景:弹性公网 IP


弹性公网 IP 为用户提供公网接入服务。通过可编程硬件网关 EGW 可满足超大公网带宽的访问需求,并可以在不同业务需求下灵活调度流量。部分高吞吐的弹性公网 IP 流量直接通过 EGW 设备实现快速路径转发处理,节约大量慢速路径的X86机器,同时缩小故障域、降低时延、减轻服务器间负载不均的问题;通过流量特征识别,EGW 可以将公网流量按指定规则导流到不同的X86软件网关集群,从而实现故障域隔离或专属集群调度,典型场景如异常大象流的治理。


>> 客户实践案例:


某制造业客户计算资源被劫持,对外实施 DDoS 攻击,占用较大网关处理能力导致正常业务丢包。通过弹性公网 IP 的流量特征识别的能力,及时治理了问题流量,避免影响其他用户,最大限度地降低用户损失。



10T 级别流量分析场景:流日志


流日志用于记录 VPC 中云服务器、负载均衡、NAT 网关等实例发送和接收的网络流信息,方便用户进行流量分析、可视化、故障诊断以及网络架构优化。百度智能云的公网、专线、跨地域等边界网关在实现了硬件化转发的同时,提升了网络诊断能力,支持流量的全量镜像或者按比例镜像分析,具备流粒度的精细化统计和安全审计功能。


>> 客户实践案例:


某电商客户混合云场景下,流日志满足了数十 T 级别专线,1000万级 IP 地址对的实时流量分析、topN 展示、公网流量来源分地域统计和网络攻击行为审计等业务需求。



超低成本的网关资源整合场景:边缘计算节点


边缘计算节点提供一站式靠近终端用户的弹性计算资源。边缘场景下,云边互联、边边互联需要云网络提供高质量的统一接入和管理服务。百度智能云基于可编程硬件的网关3.0技术方案,打造了 UNPUniversal Networking Platform )平台,实现一套可定制硬件基础平台输出多种产品形态,兼顾软件灵活性和硬件高性能,实现“超高带宽 + 超低延时 + 超大表项”的软硬一体化超融合系统,覆盖公有云 IDC、边缘计算、Local compute cluster 等场景。


UNP 实现控制面容器化部署+转发面可编程硬件加速,同时 CPU 和可扩展 NIC 配合实现密钥协商、IPsec 加解密以及 CPU 配合可编程硬件实现 DDoS 等安全功能,可以敏捷、灵活应对业务快速变化。


>> 客户实践案例:


在百度智能云的边缘计算节点,我们通过引入 UNP 平台,对原本职责不同的众多网关进行整合,使所需网关机器的数量缩减了80%



百度智能云网关3.0的核心优势


百度智能云的网关2.03.0技术方案,相比1.0,在产品性能、弹性、能耗显著提升:

  • 容量:单集群几百 G 升级为几十 T,集群机器数目反而大幅度下降

  • 时延:30us 降至1us,长尾几乎消失,转发更快速。

  • 丢包率:十万分之一降至数亿分之一,网络更可靠

  • 线速能力:256字节降至150字节,网络更稳定

  • 扩容排期:月级别降至周级别,弹性能力更强

  • 扩容频度:季度级别降至年级别,水位冗余度提升

  • 能耗:单 T 能耗下降90%以上,现在每 T 仅需不到200w 能耗,实现碳减排


虽然可编程硬件的网关技术带来了各项指标的大幅提升,但是相比 X86的几百 GB 的内存,可编程硬件的存储空间缩小为几百 Mb。容器场景下辅助 IP 的大量运用导致系统的表项规模产生了十倍乃至百倍的跃增,此时可编程硬件在表项容量上的紧缺成为了新的问题。


百度智能云运用多种手段,包括架构升级、单机优化、硬件升级等,将有限的存储运用到极致,实现同等硬件条件下部分关键表项容量提升10倍,并具备分集群扩展能力,满足高性能的云原生网络需求。

本文分享自微信公众号 - 百度开发者中心(baidudev)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章