蚂蚁金服面对亿级并发场景的组件体系设计

5 月 6 日,InfoQ 主办的QCon 2019 全球软件开发大会在北京举行。蚂蚁金服技术专家吕丹(凝睇)在大会上做了《蚂蚁金服面对亿级并发场景的组件体系设计》的分享,我们根据演讲整理如下:

今天,我主要想和大家分享一下移动领域基础组件体系,内容大致可以分为四大块,第一块是标准移动研发所需的基础服务体系,第二块是支撑亿级并发的核心组件“移动接入”的架构演进过程,第三块是双十一、双十二、新春红包这种大促活动的的应付方法,最后一块是目前已经对外输出的基础服务产品。

移动研发基础服务体系

首先介绍一下支付宝客户端的演进过程。之前,支付宝客户端的主要功能是转账、订单支付、交易查询等等,更像是一个工具类的APP,在需要付钱的时候才会掏出来,用完了就放回去了。2013年,蚂蚁金服all in 无线之后,加入了很多服务,例如余额宝、卡券、探索发现等,基本是把支付宝网站上的功能都尽量迁移到客户端,支付宝也逐渐演化成一个平台级别的客户端。之后,随着移动互联网的快速发展,公司内部孵化出了更多的APP,其他行业也在移动互联网圈内铺开了大量的业务,为了提升用户量、用户粘性,APP之间也开始进行了大量的业务融合,超级APP也因此而诞生,APP开始朝着生态化的模式发展。

截止到目前为止,支付宝客户端的年活跃用户数超过8亿,在大促场景下,同时在线量超过3亿,并发请求超过1亿,同时上线的用户数超过百万每秒。

而在这些数据的背后一定需要一套庞大、复杂、完整的支撑体系来支持支付宝的运作,移动研发基础服务体系就是其中的重要组成部分。

按照研发过程,我们把移动研发基础服务体系分成四大块: APP研发阶段,主要包括App框架、基础组件、云端服务和研发工具; App测试阶段 ,主要包括研发协作平台和真机测试平台,其中研发协作平台包含版本管理、迭代管理、安装包编译、构建和打包的能力,而真机测试主要是代替人工服务,减少人工消耗,提升测试效率; App运维阶段 ,主要包括智能发布、日志回溯、应急管理和动态配置;App运营阶段,主要包括舆情反馈、实时分析、离线计算和智能营销。

蚂蚁移动接入架构演进

今天的主题为支撑亿级并发下的基础服务,而在亿级并发下移动接入又是最核心、最重要的一个环节。移动接入并不是单个系统,而是一整套组件的总称,包括:Spanner+连接管理、API网关、PUSH通知和SYNC数据同步,它是所有移动业务的流量入口,需要维持客户端的状态,支持进行统一的管控,同时还需要进行部分的业务数据处理。

其实,一开始并没有移动接入这个说法,与支付宝客户端的演进过程类似,后端移动接入也是逐步迭代演进的。最开始,各个业务服务都是自己提供API或者直接暴露能力给客户端,没有统一的架构,没有统一的模型,也没有统一的管控。

为了解决这个问题,在all in阶段我们引申出了一个API网关,由它来做集中式管理,同时添加了PUSH推送的能力。因为公司内部有很多APP,我们希望这些能力能够复用,所以在架构上,我们支持多APP同构,客户端会提供多个SDK,可以随时进行集成。

网关架构

上图是一个移动API网关的架构,从图中可以看到,我们把API生命周期定义为以下几个阶段:API定义、API研发、API发布、API配置、API上线、API运营和API下线。而移动网关又把API生命周期切分成三大块,分别是研发支撑阶段、运行时阶段和服务治理阶段。

研发支撑阶段主要有四个能力,分别为Code-Gen、API-MAN、API-Test和API-Mock。为了提高API数据在网络上的传输效率,目前蚂蚁的API模型全部都采用了protobuf进行序列化,因此,为了方便业务开发,API网关提供了统一的基于proto文件的代码生成工具,并且为了减少客户端的文件大小和方法数限制,我们修改了官方提供的生成代码,有效减少了冗余的方法并大大减小了客户端文件大小。

在运行时阶段,核心的功能包括API流量管控、数据验签、用户鉴权以及接口系统路由等。

API日常的运维由服务治理体系来搞定,主要的能力为API监控,并根据实时数据进行API质量模型评估,同时提供了一些应急的管理措施。

API网关最为核心的架构设计是Pipeline,正如大家所知,网关看起来只是一个简单的API管控和路由,但其中涉及的节点却非常多,而每个节点的功能又相互独立,并且随着业务的发展,功能节点会逐渐增加,在某些场景下,还需要做不同的节点组合。如果采用传统的链式调用,代码执行串会非常的长,同时扩展和维护起来都非常的困难。因此我们参考了netty的Pipeline设计,完成了自己的Pipeline链路。Pipeline中的各个handler保持相互独立,同时可以根据需要、根据配置自由捆绑,也为后续的功能延伸提供了良好的架构支撑;

代码变革

从代码来看,我们可以明确的感受到之前的调用过程是一个远程调用,需要感知路径、参数等,而在统一了整个数据的交互之后,对于业务系统来说,这个调用过程更像是本地调用,直接调用函数,封装模型。通过这种方式,业务类研发同学能够更关注于自己业务系统的代码逻辑编写,完全不用关注底层通讯的实现,较大的提升了研发效率。

移动网络跟有线网络是有很大区别的。移动网络比较复杂,用户状态也比较复杂,有可能是在地下室、电梯或者其它弱网环境中,并且用户在移动场景下对于体验的要求非常高,例如在支付时,用户需要立马拿到支付结果。之前,我们主要是做了服务端的改进,针对客户端并没有做改进。为了解决用户问题、性能问题、提升用户体验,我们在进行了一次升级,做了一个统一接入网关,并把它架在基础组件之上,同时研发了性能数据同步、增强了IP调度等能力。

统一接入网关

统一接入网关(ACCGW),可以理解成一个前置的Nginx,是蚂蚁基于Nginx二次开发的一套组件,在内部我们叫做Spanner,它在接入架构中主要负责非业务的那一部分逻辑处理,主要包括SSL的卸载,MMTP的协议解析,数据的压缩、解压缩,客户端TCP长连接的维持,接入流量的总控,数据包的路由以及客户端日志的接入。API网关、PUSH推送、数据同步等组件,都在它的庇荫之下。

网络协议优化

MMTP协议的全称是蚂蚁移动传输协议,基于TLV的数据结构,这种数据结构的好处是分包解包的效率非常高,且它是基于二进制的,存储成本相对较低。同时还满足了客户端多个组件的链路复用,当然MMTP配合客户端也有自己的一些特性,同时我们也加入了很多新特性,例如智能连接策略。因为移动环境下用户的网络状态不是很可靠,如果是传统的连接方式,不一定能满足所有RPC请求,所以我们做了策略改进。在能够使用长连接的情况下尽量使用长连接,如果出现长连接连不上或者闪断的情况,我们就尝试使用短连接的方式,短连接可以满足当时紧急的RPC发数据。同时我们也会用一些并发建连的策略,运营商网络通常是先连上哪个就使用哪个连接,连接之后我们会使用智能心跳策略,用以捕捉不同运营商、不同地区,对于维持连接的心跳时间的差异。

在并发建连的过程中经常会出现客户端同时存在多端长连接的现象,数据包可能会在中间做传输,如果立马断掉的话,数据包就丢了,很可能对业务产生影响,因此我们加入了柔性断连,以确保可能在传输过程中的数据包能被安全送达。另外,多个连接建完之后,客户端可能出现状况,服务端没有及时感知到,无法获知这个连接是好是坏。因此,我们加入了假连接监测,数据包派发的时候携带一个序列号,客户端回报之后,如果序列号返回了,就证明这个连接是可用的,反之,我们就认为这个连接是假死状态,可以在合适的时间点断掉该连接。

MTLS是蚂蚁移动安全传输协议,基于TLS1.3。我们在做的时候,TLS1.3还没有正式发布,但是我们了解到一些它的特性,并将某些特性加入到了设计中。比如采用了1RTT ECDHE的握手方式。1RTT ECDHE是基于ECC加密套件,ECC的最大特点是密钥串比较小,更小的数据在移动方面有非常大的优势,例如提升传输效率,节省存储成本。在存储或传输过程中,数据包大小是移动领域特别关注的点。也因为如此,我们选择了ZSTD压缩算法,ZSTD有非常大的压缩比,且在该压缩比之下,压缩和解压缩的效率都不错。另外,在某些可支持重放的业务场景中,我们还加入了0RTT策略,第一时间把数据从客户端发送到服务端。通过上述优化,RPC的平均响应效率提升了5~6倍。

SYNC数据同步

SYNC数据同步听起来有点陌生,其实可以理解成是PUSH的演进版本。它是基于TCP、双向传输的。虽然传统的RPC能够解决绝大多数的问题,但是在某些场景下,它是有缺陷的。例如,客户端启动之后,需要通过RPC请求去判断服务端是不是有数据。其实90%的情况是查询接口没有任何的变化或者返回的数据客户端已经存在了,所以这个过程非常冗余。除了数据冗余以外,请求也冗余,因为没有发生变化,调用在原则上是可以省下来的。

当初,在all in之后,我们做了一些体验上的优化,如预加载能力,当客户端启动之后,触发数据预加载,虽然没有进入到模块,但为了提升用户体验,客户端发送很多RPC请求,也因此造成了大量的冗余并发请求。

另一个不足是客户端没办法主动感知到服务端的数据变化,比如在聊天场景中,用户是等着交互的,如果使用RCP定时拉取的方式,客户端和服务端的成本会非常高,整体响应时间也比较慢。而通过SYNC的推送模式,可以在服务端产生数据的时候,基于TCP方式把数据推送到客户端,客户端可以在第一时间拿到数据做业务渲染,比如支付宝的扫码支付、当面付都是通过SYNC服务来同步的结果数据。

SYNC的基础核心是——oplog,它类似于mysql的binlog,是每一条增量数据的快照。SYNC会为每一条oplog生成一个唯一的、递增的版本号,然后通过记录客户端当前数据版本号的方式来计算两端之间的差量,并仅同步差量数据。因为SYNC是基于TCP,可双向主动传输,从而达到实时、有序、可靠、增量的数据传输效果。同时,SYNC在客户端触发场景中,并非基于业务场景,而是基于事件,如建联、登录、从后台到前台等动作,因此,可以达到单次事件触发多业务的增量计算,而当无增量数据时客户端也不需要进行任何的其他RPC请求,从而极大的减少了客户的请求数和冗余数据传输,不但提高了效率、实时性,还间接的降低了系统压力。

移动调度中心

对于客户端请求来说最重要的是在第一时间内找到正确的IP并把请求发出去。之前这些工作一般是由传统DNS来做,但传统DNS会有一些问题,例如DNS劫持、DNS解析失败、不同运营商DNS解析效率不同等等,解析DNS需要消耗额外的RTT。

针对这些情况,我们设立了移动调度中心,它是基于HTTPDNS,并在此基础上加入了用户分区信息。什么叫用户分区呢?面对亿级并发,服务端肯定不会在一个机房里,可能是在多个机房中,且机房内部还有逻辑分区。用户属于哪个逻辑区只有服务端知道,客户端本身是感知不到的。当某个分区的用户接入进来后,如果没有在正确的分区内,且又需要转到其它分区做业务处理时,如果是采用传统DNS是无法实现的,因为无法解析出用户属于哪个IP列表。而HTTPDNS+分区数据的模型,可以让客户端快速拿到最准确的IP地址,同时客户端还可以针对这个IP地址做质量检测和有效性检测,在请求之前就确定最优的IP地址。另外,HTTPDNS还可以支持海外节点的部署。HTTPDNS一定不会比DNS的效果差,因为它还有DNS来兜底,一旦HTTPDNS出现问题,那么就会切换到DNS去做解析。

以上的演进过程满足了绝大多数日常的需求,但是支付宝有很多大促场景,每次大促的玩法都不同,且峰值集中在一刹那。针对这个场景,我们又孵化出了新的模式,一是API网关的去中心化,二是SYNC-PULL机制,三是SYNC-Bucket计算模式。

网关去中心化

网关去中心化解决的一个核心问题就是成本。大促场景下,业务量不停上升,峰值可能非常高。但峰值只有一刹那,其他时间内机器都是处于空闲状态,这是非常大的资源浪费。而为了保证大促时不崩溃,机器又不能减少,所以对应用的压力是非常大的。

如果都是做单点,那么还会存在稳定性的问题。如果网关在发布时出现了某些差错,那么有可能影响所有业务流程的处理。另外,如果单个接口出现问题,客户端出现死循环等问题,也会影响到其他系统业务的流程。面对以上情况,我们把网关去中心化就可以抵消这些风险,如果只是单个系统出问题,那么不会因为网络的问题导致其他业务发生问题。

SYNC-PULL读扩散

为什么会有SYNC-PULL读扩散的需求呢?因为支付宝内部有非常多大V商户,每个商户有非常多的关注用户,它需要定期或不定期的做一些运营消息投放。如果按照SYNC的场景,通过写扩散的方式给每个关注投放一条数据,不仅浪费存储,而且效率很低下。假设某个商户有5亿关注用户,5亿数据全部入库最快也要几十分钟。另外,由于我们商户的数量很多,大家都争抢这个资源,可能会出现排队的情况。对于商户来说,无法立马将活动触达到用户端,对于服务端来说,消息可能是一模一样的,造成了存储浪费。即使是使用了缓存,整个索引也需要给每个用户去存一遍,这对数据的TPS依然要求非常高。

为了解决以上问题,我们升级成了读扩散的模式,把它抽象成关注关系,每个商户抽象成Topic,然后把所有数据放在Topic下面。因为用户关注的大V相对比较少,且大V生产数据的频率并不高,有效的数据集不是特别多,所以可以把超级大V的数据先放在缓存里面,然后通过二叉索引快速寻址用户下的关注关系,并通过原有的SYNC机制把增量数据推到客户端。这样,原来亿级的存储就变成了一条存储,原来几十分钟的响应时间变成了秒级,效率和体验都有了极大的提升。

早先,我们做SYNC的时候是想让每个业务都相对独立、相对隔离,计算也独立进行。当时的业务场景不多,但是后来接入的业务越来越多,将近有80个业务场景,且每个业务都是独立计算。客户端是基于事件的,建连之后,需要进行80次业务独立计算,在大促一百万每秒的发送量的情况下,很容易就达到亿级,这对数据库、应用程序、缓存等的压力都是非常大的,同时这种方式也没法满足未来的持续发展。

为了解决这些问题,我们针对原来的计算特性抽象出了几个分类。例如,基于用户维度、基于设备维度、基于一次性、基于多端同步、基于全局用户配置的几个大类数据,抽象成几个抽象模型。我们姑且认为是有5个bucket,所有的计算都基于bucket方式来做,如果有新的业务加入,那就根据它的特性把它归到某个bucket中。

另外,大促场景下会有高优先级的业务,所以需要做一些特定的限流策略。针对这种情况,bucket可以动态的增减,业务进出bucket也可以随时切换。bucket上线之后,当时我们的计算量下降超过了80%,在后面的2、3年中,业务从80个增加到300个,服务器也没有增加。整体来说,对性能的提升还是非常明显的。

大促活动场景应对之道

前面的内容主要是移动接入方面的组件设计如何支撑亿级场景,下面我们聊一下,如何切实的应对大促活动。

大促活动场景应对之道:步法

通过几年的大促经验,我们在技术上提炼出了应对大促的几个步法:首先业务同学设定业务目标,确定业务玩法;技术同学在收到大促介绍之后,开始分解技术指标,并根据各自系统的能力、流程和特性确定相应的技术方案,确定技术方案的步骤则主要为:链路分析、容量评估、性能优化、流控方案、预案策略以及确定弹性流量规则。在确定完成技术应对方案后,最重要的是进行全链路的压测,通过影子用户,影子表进行生产环境的全链路压测,每个系统压测周期短则几天,长则需要数月。在不断的压测中发现问题,发现瓶颈,优化后再次进行压测,直到完成技术目标;在全链路完成压测指标后,进行多轮活动的演练,以模拟真实业务场景,并验证技术方案的准确性;此后,根据实际需要,择时进入大促阶段。在这个阶段,研发同学主要工作是配合运维进行预案的执行、观察大促期间各种指标的变化,并根据监控确认是否需要应急。当然,应急方案在之前的演练中也需要进行验证。随后大促活动结束后,需要进行预案&应急策略的回滚和验证,这样大促活动才算真正结束。同时,更重要的是,我们需要对每年的大促进行复盘review,以便发现不足,在后续的活动中加以改进。

大促活动场景应对之道——流控

在大促执行过程中,最为关键的是流控。对技术同学来说,让系统在活动中活下来是对大促最给力的支持,流控是系统最有力的屏障。由于各系统在大促活动中发挥的作用、业务的紧急程度、集群的规模各不相同,因此大促中一般会牺牲一些特性来为主要链路腾出性能空间,比如流水日志、压缩阈值、消息顺序性等等。

流量的管控也会分多级,在最上层LVS会在VIP上进行数十亿级别的控制,到接入网关层则根据建连量、包数进行亿级流控,而API网关层则进行千万级别的控制。在这几层上,一般简单计数即可满足。而到业务层,特别是中低流量的业务层,一般采取的是令牌桶和分布式限流方式。然后,在API网关上,也可以做一些自定义的脚本,mock返回结果来为业务系统抵挡住一部分请求。

自动化真机测试

除了核心链路之外,我们也需要一些后勤服务。例如在测试过程中,需要自动化,特别是真机模拟测试来抵消部分的人力劳动。我们的机房中部署了上千台手机,通常都会进行一些自动化的运维检测,包括安装包的安装卸载、性能损耗、功能测试等。除了自动化测试,它还扮演着自动审批和服务巡检的角色,分别用来检测小程序和及时发现问题。通过自动测试平台可以节省60%以上的重复体力劳动消耗。

客户端智能发布——确保客户端万无一失

如果要确保客户端万无一失,那么最核心的就是灰度流程,灰度流程结束之后,我们才能发布到生产环境中。

智能发布主要支持客户端各种的发布包,包括安装包、离线包、小程序包等。通过多年的发布,我们也沉淀了一些模板,例如灰度用户、灰度覆盖率等等。灰度时我们可以选择一定的模板,按照既定逻辑,使用自动化流程代替人工处理。

舆情分析——及时获取用户反馈

客户端发布之后,业务同学一定非常关心用户心声和市场反应,技术同学则希望第一时间收集到用户的真实反馈。舆情分析系统就用来满足这些需求,舆情系统可以分为4大块:数据采集,主要采集渠道为各大媒体中心、应用市场评论、开会的反馈功能和客户满意中心的数据;数据内容则可以包含各种热点话题、热点事件和主要生产问题;数据存储,目前主要由4大块来支撑:元数据一般可以采用关系型数据库,文档数据使用的是MongoDB,爬虫采集的条目通过MQ来传输,所有数据最终会落至ES中,用来做检索和基础分析;数据计算更多的是通过文件算法来对ES中的数据进行分析,最终产出各种趋势和各种事件、话题排行,同时针对每一个用户反馈又可以实时通知到相关的负责人。

在这里我们说的移动分析主要是基于客户端日志埋点的数据分析能力。客户端需要有标准的埋点SDK来采集Native、H5、小程序的各种框架&容器埋点,也需要支持业务自定义的业务埋点。同时,为了在大促场景能有效的提升服务端性能,埋点的写入与上报也需要有一些措施来进行动态的控制,埋点在客户端完成后,在合适的时机就会上报给服务端的移动日志网关,(移动日志网关目前也已经逐步被纳入到移动接入中进来)。当客户端日志上报到服务端之后,即可由日志网关输出到服务端日志文件或投递至消息组件,供其他的平台进行消费计算,这包括如Jstorm、kepler、Flink这样实时计算平台,也可以投递到Spark、odps等离线大数据计算平台来进行进一步分析。作为基础组件,移动分析除了日志采集和同步之外,也进行了一些框架输出日志的基本数据分析,行为分析(像日活、新增、流存在)、页面分析(停留时长,参与度)、闪退分析、卡顿分析,并提供了日志回溯和日志拉取等能力供研发同学进行问题排查和分析。当然,这些数据可以用于各种业务分析,分析的形式完全取决于业务方想如何使用。

对外输出的基础服务产品

技术组件产品服务输出:成熟一个,开放一个

我们的基础能力经过这几年的努力,也沉淀了不少技术产品可以输出出来。这些技术产品覆盖了从APP研发到测试到运维到运营的各个阶段,有客户端框架、客户端基础组件,有云端基础服务(像API网关、SYNC数据同步、PUSH通知这些),有开放工具,有插件,有伴随研发测试的研发协作平台来进行迭代管理、编译、构建、打包,真机测试平台,也有APP运维阶段所需的智能发布、日志管理、应急管理,还有用于APP运营的,各种数据分析和营销投放产品。这些能力目前已经输出到了蚂蚁国际(印度paytm、马来西亚、印度尼西亚、菲律宾等)的多个合作伙伴APP,公有云的上百个企业级APP,以及私有云的数十家金融APP。

我们的宗旨是,成熟一个、开放一个,来与合作伙伴共建移动互联网的生态

一站式研发平台——mPaaS

为了能够帮助合作伙伴快速、有效的建设自己的APP,我们也推出了一站式的移动研发平台——mPaaS。mPaaS囊括了前面说到的各项基础能力,同时,支持公有云和私有云,mPaaS不仅仅是技术的输出,也是生产经验和运营理念的输出。

作者简介:

吕丹(凝睇),2011 年加入支付宝,先后负责了支付宝 Wap、alipass 卡券、SYNC 数据同步等项目,并参与了多次双十一、双十二、春节红包大促活动,在客户端基础服务方面有一定的项目实践经验与积累。目前负责蚂蚁金服移动开发平台 mPaaS 服务端组件体系优化与架构设计。

活动推荐:

7月12日深圳ArchSummit全球架构师峰会上,ToB的业务逐渐受关注,来自钉钉、腾讯云、百分点的讲师将分享,如何利用互联网技术攻破传统企业的铜墙铁壁,把技术输出到企业,赋能更多的业务。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章