阿里巴巴AI系统建设的思考

原創

2021-07-28 15:58

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"最近人工智能得到了爆发式的发展，这个背后的主要的原因，就是因为互联网的发展速度之快，使得我们能够快速的堆积数据，同时加上硬件的快速发展，以及神经网络训练方式的革新，使得我们有能力能够训练比较深的神经网络，产出了能够具有突破人类“智能”的模型，并且广泛落地到了实际应用中。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在这个趋势下，算法以及背后的工程体系更加的收拢，促成了TensorFlow，PyTorch等深度学习框架的诞生和流行，从而使得进行深度学习应用开发的门槛进一步的下降，原有人工智能的算法结构创新，变得并不是那么高不可攀，"},{"type":"text","marks":[{"type":"strong"}],"text":"如何能够将AI的工程化做到更大普惠化，成为人工智能研发的关键。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"同时随着Transformer以及Bert等训练方式的创新，"},{"type":"text","marks":[{"type":"strong"}],"text":"大规模预训练模型以及从大模型进行场景化蒸馏进，而产生垂直场景的AI应用"},{"type":"text","text":"，已经渐渐成为人工智能研究标准流程，那么"},{"type":"text","marks":[{"type":"strong"}],"text":"AI的工程如何能够有效支撑超大规模预训练"},{"type":"text","text":"，成为另外一个关键。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"因为大规模预训练模型需要耗费大量算力资源，AI工程需要通过云化方式来提高算力的共享，利用云良好的弹性，共享性和互通性来降低研发成本，阿里巴巴机器学习平台PAI就是在这样的需求理解上，构建自己AI系统的建设，提高AI工程化的能力和效率。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我觉得"},{"type":"text","marks":[{"type":"strong"}],"text":"做深度学习框架其实有两个派别的人，一派是做分布式系统的人来做的，另外一派是做算法的人来做的"},{"type":"text","text":"。不同的人的背景不同，所以做这个事情的角度也会不同，从而产生不同门派。TensorFlow属于系统派，而PyTorch属于算法派。像我们这种做系统，特别是做过超大规模分布式系统的人，往往最担心的就是，当你要对一个已部署在成千上万台的计算集群上的平台软件，需要做重大重构的时候，如何保证重构和迁移能够更灵活顺畅的进行。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"这个中间的困难没有做过这个事情的人可能不会太有体感，这么大一个平台，公司财力不可能让你去通过镜像一个个集群的方式来完成任务的迁移，并且越大公司的平台上用户数众多，业务都会耦合在一起去完成公司的使命，基本上你不可能有时间点可以让全公司的业务团队都放下他们自己手头的优先级，来配合你做这种迁移，哪怕你工程能力非常强，也不敢百分百的确保这种迁移中间不会出现任何意外，而对于很复杂的系统来说，要做到这一点基本上就更难了。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"所以我们做系统的，往往会在系统设计阶段就有所考虑，把"},{"type":"text","marks":[{"type":"strong"}],"text":"系统设计得更加具有可扩展性"},{"type":"text","text":"，从而尽最大可能去避免出现这种大的重构和推倒重来。当我们在面对需要构建一个深度学习框架的时候，我们第一时间就在设想这个"},{"type":"text","marks":[{"type":"strong"}],"text":"框架需要能够（从规模上）很好支持分布式，能够很好的扩展到任意大的深度模型的框架"},{"type":"text","text":"，我们希望构建一个系统，（从模态上）能够像人脑一样能够把视觉，语音，语言等多种模型能够一同训练。其实这个就是TensorFlow这样系统构造的时候的原始想法，把整个计算构成一个Tensor的Flow图。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"因为分布式本身就很复杂，需要处理各种节点相互的数据和执行中的各种依赖关系。这些事情由人来写代码，太繁琐且容易出错，所以自然地，我们就会设想由系统来负责这种依赖关系。这也就是为什么我们希望整个分布式执行的计划是一个静态图，然后系统再根据用户指定的或者系统智能的决定的placement进行分图，并在这些分图中添加合适的Send-Recv的OP，从而构成一个分布式的执行计划。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"但是这样的设计理念也会带来一些困扰，我们在模型训练时候，有时候有些类似控制图的部分，在这种设计理念下，我们必须要把这些控制流图的代码也OP化，然后把这些OP也整体串联在Tensor的Flow执行图中。大家有兴趣了解细节的话也可以看看论文《"},{"type":"link","attrs":{"href":"https:\/\/arxiv.org\/abs\/1805.01772","title":"","type":null},"content":[{"type":"text","text":"Dynamic Control Flow in Large-Scale Machine Learning, Eurosys2018"}]},{"type":"text","text":"》，不过这种方式会使得一些习惯单机开发的研究人员觉得比较晦涩。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"同时也是因为分布式的原因，我们做系统的很自然会"},{"type":"text","marks":[{"type":"strong"}],"text":"把模型的开发过程分成构图和执行两个阶段"},{"type":"text","text":"。构图的时候只是生成一个逻辑执行计划，然后通过显式方式的提交（或者execute）过程进行执行。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"这种方式让研究人员觉得不能一边写代码一边就能够马上看到代码片段的结果，所以这也造成很多人诟病TensorFlow的模式不太容易调试自己模型程序的原因，其实这也对分布式带来负担。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"但是TensorFlow也有很多优势，因为TensorFlow是静态图的方式，（带来好处之一就是）其可以做到训推一体，正在训练出来的模型能够导出模型图，并且在这个图上进行系统化的推理优化，从而能够非常方便部署到线上。这个系统性的方法，对于工程化也是另外一个优势。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"框架的另外一派是算法派，特别是感知类模型（图像，语音，语言类）训练，因为这类训练一般都是同步训练，然后“分布式训练”也不像系统派那样设想是任意异构的分布式执行图（即每个分布式节点的执行逻辑可以不同），而只是需要数据并行，这样我们就可以利用MPI的AllReduce的通讯源语来进行梯度的汇集计算。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"算法同学需要一种丰富的可扩展的在GPU上能够很好运行的，并且能够很好进行自动梯度的算子库，并且因为面向是数据并行的场景，这样的话在神经网络部分其实都是单机程序，从而可以利用任何python的语法糖去构建任何的动态的训练控制逻辑（大家也把这种称作动态图），对于算法研究人员来讲，这种方式写代码比较随性也方便调试，所以在研究界PyTorch得到大量的关注和使用。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"刚才说过TensorFlow从设计之初就在考虑可以超大的模型分布式训练的场景，但是没有预想到硬件的发展也非常迅速，显存越来越大以及训练技术的发展，还有非常精细化优化显存的工作，比如DeepSpeed等，把optimizer所需要的显存sharding化掉，使得除了超大规模稀疏模型训练外，感知类的SOTA模型一直可以利用数据并行的方式来进行训练。从而使得TensorFlow这种设计理念看上去有overdesign的嫌疑。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"并且就算超大规模稀疏模型训练，因为TensorFlow整体化的设计理念，不把Parameter Server作为游离在Flow图之外，使得他在超大规模场景下的（限制了它）scalability上出现了问题，从而催生一堆自建PS+深度学习框架的（稀疏）模型训练框架。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"好在随着Transformer的出现，我们终于有方法能够回归到最初那个梦想，使得我们可以把多种数据（图像的，文字的）合在一起训练多模态的模型，因为问题规模的增大，必然需要更多参数的模型来支持，所以我们迅速将模型大小从几十亿增加到万亿规模，这个时候就必然需要能够支持很好模型的并行框架，这也是为什么最近这个领域重新变得火热，比如类似OneFlow，MindSpore，PaddlePaddle，Mesh Tensorflow，GShard，以及我们阿里的Whale框架。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"其实从设计理念来看，模型并行正是回归到原来TensorFlow一开始设计时候的设想，只是那个时候因为模型并行的需求不够，没有必要提供比较好高层自动分布式的抽象，写模型的人还是可以自己精细化去构造每个计算节点的子图，整体上TensorFlow的框架只是负责把这些子图能够自动通过Send-Recv进行连接，并且在Runtime能够合法的进行计算。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"而现在，因为需求增多，算法迭代需求的增多，迫切"},{"type":"text","marks":[{"type":"strong"}],"text":"需要一种高层次的自动分布式框架"},{"type":"text","text":"，从而使得算法同学能够去快速简单构造一个逻辑图的方式，去构造自己神经网络，而由系统层来进行复杂模型并行的构成。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"所以其实可以看到TensorFlow的设计理念正好就是为这个考虑的，利用静态图，我们可以逻辑性去描述一个网络训练，然后在执行时候在进行系统化的分图和分布式训练。所以说自动分布式的需求并没有超越原来设计的基本范畴，也是因为这样，我们采取和谷歌GShard类似技术路线去提供自动分布式的能力。正是"},{"type":"text","marks":[{"type":"strong"}],"text":"站在原有框架基础上去做增量"},{"type":"text","text":"。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"不同于GShard更加关注于谷歌TPU集群，我们关注于异构的GPU集群，这里所说异构是因为我们不如谷歌这么有钱，构建非常大的同构化TPU集群，我们集群中有不同年代的GPU和CPU，这些GPU各自算力和显存都大小不一。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"也正是因为这样，其实给我们系统提出更大挑战，我们在进行自动分布式时候需要在cost model上考虑好这些差异点。这样才能做到比较优化的分布式训练。这也是我们自动分布式框架Whale一种差异性和核心能力之一。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"其实"},{"type":"text","marks":[{"type":"strong"}],"text":"系统派的框架和算法派的框架也在进行一定的融合"},{"type":"text","text":"，TensorFlow提出了Eager模式，通过TF.Func在Eager模式下可能单步执行计算，得到Tensor来提高可调式性；而Pytorch通过Trace或者Parse的方式转化为TorchScript的图描述，从而能够更好支持训练到推理的工程化。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"但是这种动静结合其实只是在一定层次的，比如如果考虑分布式，Trace的方式去得到TorchScript就不足够。需要进一步去限制构图能够使用的API，这也是像NVIDIA的Megatron以及微软DeepSpeed，在PyTorch上去支持分布式所带来的一些约束，感兴趣的可以读读OneFlow的Blog，《"},{"type":"link","attrs":{"href":"https:\/\/arxiv.org\/abs\/1805.01772","title":"","type":null},"content":[{"type":"text","text":"Dynamic Control Flow in Large-Scale Machine Learning"}]},{"type":"text","text":"》"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"所以我们认为现在深度学习框架中两个主要流行的框架TensorFlow和Pytorch，是有其设计理念原因的。我们做Whale正是在这种理解的基础上进行路线选择，并且认为应该站在已有的TensorFlow工作基础上去做增量的东西。而不是再去造一个别人做过的轮子。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我们认为"},{"type":"text","marks":[{"type":"strong"}],"text":"当前深度学习已经进入到超大规模预训练模型时代"},{"type":"text","text":"，在这个时代下，"},{"type":"text","marks":[{"type":"strong"}],"text":"如何加速预训练模型的迭代，从而掌握人工智能上游的预训练模型的研发就成为关键"},{"type":"text","text":"。因为这些模型训练都需要比较复杂的模型并行方式来进行训练，所以如何能够降低甚至是对于算法同学能够隐含分布式训练的复杂，使得算法同学仅仅需要关注建模代码构建，而由框架来自动进行分布式从而加速模型结构迭代。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"不同于Megatron优化一个定制的模型分布式训练，Whale可能在特定模型上，d训练的自动分布式做不到最优，但是我们可以支持模型的快速的迭代，从而推动算法和系统协同优化，而在这个层面上就能够和算法同学一起快速找到一个更加合适分布式的模型结构，而这个层面得到的训练加速比可能是一个量级的提升，这也是Whale能够快速几个月时间，把阿里巴巴的多模态预训练模型从几亿快速提升到千亿参数规模，并且利用算法和系统的协同优化，利用480张卡就能训练出比肩NV3072卡训练出来的模型的核心原因。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"以下是"},{"type":"text","marks":[{"type":"strong"}],"text":"阿里自研分布式训练框架Whale整体的架构图："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.infoq.cn\/resource\/image\/76\/35\/764f87932664fba5cb52d723a9311f35.png","alt":null,"title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Whale会将已有的静态图结构转化成IR描述的逻辑执行计划，然后系统会根据自动规划出来的并行策略，对于执行计划进行切图，并且把系统资源进行相应的划分，然后把切图的结果和资源进行相应的绑定，从而生成最终的执行计划。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"就如同我们说的Whale设计的一大目标就是希望是个scaleup的解决方案，可以让用户写的单机单卡模型程序，能够自动扩展到分布式训练上，从而完成比较自然的程序的scaleup的过程。这样就能极大加快模型开发迭代速度，从而研究者可以先在单机上去聚焦模型本身的特性，比如收敛性，模型效果，模型研究方向是不是对头等等。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"到了需要把模型规模扩大的时候，算法工程师只是需要扩大Tensor的Shape，或者扩大模型结构的堆叠，系统就会根据模型结构的特点，结合数据并行，流失线并行，算子切分，混合并行，显存优化等方法，通过Cost Model选择一个合理的分布式训练的方案来自动分布式化，取得一个不错的训练加速比。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"当然我们系统工程师都知道这个自动化其实是非常难的，因为要考虑不同切图情况，显存消耗，数据IO的范式，计算的瓶颈都是各自不同的，有时候分布式专家相比系统，在一些关键点，能够进行更好的指导，所以Whale把进行分布式策略探索中，如何描述切图的subgroup，如何描述资源组成的virtual device以及进行各种并行策略，进行了用户层的暴露，然后用户可以在原有构建模型的过程中，可以通过python的with字句进行这些annotation和静态图的节点进行绑定，从而来指导系统，达到更好的更可控的分布式优化结果。随着系统自动优化的成熟，我们可以期待这种annotation将会越来越少。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"同时因为大规模分布式训练对于资源消耗非常大，所以我们自然会在一个共享的大集群上运行训练，这样集群时时刻刻都会在不同的任务在上面去跑，用户得到的资源其实是一个动态的，并且考虑到硬件发展很快，比如NVIDIA的硬件基本上是半年一代，我们购买的硬件在数据中心平均使用时长是3年，这样就必然造成我们集群是多种GPU卡型共存的集群，加上有多种任务在集群中跑，必然造成资源有时候会有碎片的出现（即便调度器会极力去避免），这个时候我们是没有办法事先知道集群资源的情况，而系统自动优化能够更好适应资源实际情况，生成一个更加优化的分布式训练方案。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"更进一步，如果我们希望调度器能够提供更大可能性，我们可以把不同任务装箱在一起，去共享GPU等计算资源，我们其实会把自动分布式和调度以及编译结合在一起。调度器可以给出不同的资源调度的计划，资源的上限限制，然后自动分布式通过这些约束结合编译器来生成不同执行计划，最后在全局上选择一个优的执行计划。从而能够达成全局最优而不是局部最优。当然现在离这个最终目标还有不少的工作需要去做。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"总结下，我们认为"},{"type":"text","marks":[{"type":"strong"}],"text":"未来AI的模型发展方向会从单机训练向大规模分布式训练发展，通过大规模预训练模型+小样本的蒸馏的模型开发流程将会成为主流"},{"type":"text","text":"。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在这个潮流下，我们需要有个更好的（自动）分布式框架能够让算法开发人员继续能够聚焦在模型结构的设计上，而由系统上进行有效自动分布式，这个易用性比并行化一个固定模型结构将会更加重要，从而推动算法的快速迭代。并且因为大规模分布式训练对于资源渴求，我们需要依托云的弹性构建一个共享的大的集群来激发算法的研究。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"正是根据这些思考，"},{"type":"text","marks":[{"type":"strong"}],"text":"阿里巴巴机器学习平台PAI会持续进行AI工程化建设"},{"type":"text","text":"，通过调度和分布式编程范式的规模化建设，数据和算力的云原生化建设，以及上层算法开发和服务标准化和普适化建设，从而使得算法能够关注他们要做什么，由系统来优化如何高效、低成本来执行模型训练和推理。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"作者介绍："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"林伟，阿里云智能研究员，阿里云机器学习PAI平台技术负责人，主攻大规模分布式训练加速、编译优化等AI工程的建设和性能优化。具有大规模并发系统有15年的系统架构设计及研发经验，并在国际一流ODSI、NSDI、SIGMOD会议上多次发表论文。原微软大数据平台组的核心成员，曾在微软亚洲研究院和微软美国工作10年，一直从事分布式系统开发和大数据平台的相关工作。如果大家对于我们PAI团队的工作有兴趣，非常欢迎和我们联系，我的邮箱是[email protected]"}]}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

攻击者正在利用AI，对保险公司发起大规模欺诈

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

AIGC在京东广告创意的技术应用

一、前言電商廣告圖片不僅能夠抓住消費者的眼球，還可以傳遞品牌核心價值和故事，建立起與消費者之間的情感聯繫。然而現有的廣告圖片大多依賴人工製作，存在效率和成本的限制。儘管最近AIGC技術取得了卓越的進展，但其在廣告圖片的應

京東雲開發者

2024-05-08 23:24:18

AI绘图新选择：Fooocus工具发布，小显存助力大模型运行

隨着人工智能技術的飛速發展，AI繪圖工具已經成爲了衆多創作者們的得力助手。它們能夠基於深度學習算法，快速生成高質量的圖像，爲設計、藝術等領域注入了新的活力。然而，傳統的AI繪圖工具往往對硬件要求較高，使得許多擁有較低配置設備的用戶望而卻步。

2024-05-07 23:30:10

GLM国产大模型训练加速：高效性能与成本优化的实践

隨着人工智能技術的不斷進步，大模型的訓練成爲了推動深度學習領域發展的重要力量。然而，傳統的訓練方式往往面臨着性能瓶頸和高昂的成本問題，這使得許多研究者和開發者望而卻步。爲了解決這一難題，我們探索了使用OneFlow框架對GLM國產大模型進行

2024-05-07 23:30:09

LoRA微调语言大模型的实用技巧

一、引言隨着深度學習技術的快速發展，語言大模型在自然語言處理領域取得了顯著的進展。然而，傳統的微調方法通常需要大量的計算資源和時間，對於實際應用來說並不友好。爲了解決這個問題，LoRA微調技術應運而生。LoRA（Low-Rank Adap

2024-04-28 11:30:13

京东广告研发——效率为王：广告统一检索平台实践

1、系統概述實踐證明，將互聯網流量變現的在線廣告是互聯網最成功的商業模式，而電商場景是在線廣告的核心場景。京東服務中國數億的用戶和大量的商家，商品池海量。平臺在兼顧用戶體驗、平臺、廣告主收益的前提推送商品具有挑戰性。京東廣告檢索平臺

2024-04-25 23:17:47

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

大模型区域落地再加速！百度“文心中国行”西部首站落地成都锦江

4 月 24 日，“文心中國行”西部地區首站落地成都錦江。成都市錦江區白鷺灣新經濟總部功能區、錦江區投資促進局與百度飛槳攜手合作，打造成都人工智能的新產業、新模式、新業態。來自成都政產學研各界的領導、專家、企業嘉賓，共同探討如何降低 AI

2024-04-25 11:41:53

文心中国行走进成都！4 月 24 日一起把握大模型时代的产业新机遇

4 月 24 日，文心中國行將走進成都。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，從人工智能政策解讀、大模型技術，到產業創新應用的實踐案例，讓參會者全方位瞭解大模型時期的發展與創新機遇。大會還特別

2024-04-23 11:41:07

文心大模型“你说我画”：PaddleHub与PaddleSpeech的协同实践

在人工智能領域中，自然語言處理和計算機視覺是兩個非常活躍的研究方向。隨着深度學習技術的發展，這兩個領域之間的交叉融合產生了許多令人興奮的應用場景。其中，“你說我畫”就是這樣一個結合自然語言處理和計算機視覺技術的創新應用。 “你說我畫”的核心

2024-04-22 11:29:20

探索时间序列大模型：TimeGPT的魅力与实践

在數據科學的各個領域中，時間序列分析一直扮演着重要角色。無論是預測股票價格、氣候變化，還是分析醫療數據，時間序列模型都發揮着不可或缺的作用。然而，傳統的時間序列分析方法在處理複雜數據時常常面臨諸多挑戰，如數據稀疏性、非線性關係等。爲了應對這

2024-04-22 11:29:17

京东广告研发——AIGC在京东广告创意的技术应用

一、前言電商廣告圖片不僅能夠抓住消費者的眼球，還可以傳遞品牌核心價值和故事，建立起與消費者之間的情感聯繫。然而現有的廣告圖片大多依賴人工製作，存在效率和成本的限制。儘管最近AIGC技術取得了卓越的進展，但其在廣告圖片的應用還存在缺乏

2024-04-22 11:16:30

Create 2024 分论坛：百度大模型安全解决方案护航开发者一起创造未来

4月16日，百度Create AI開發者大會在深圳國際會展中心（寶安）舉行，大會以“創造未來”爲主題，匯聚了當前科技和產業革命中的開發者先鋒力量。自去年3月16日發佈知識增強大語言模型文心一言以來，百度不斷推動文心大模型的升級迭代，每一次版

2024-04-19 21:33:25

AI大模型应用架构（ALLMA）白皮书解读

隨着人工智能技術的不斷髮展，AI大模型成爲推動生產、生活方式變革，助推產業智能化轉型升級，驅動數字經濟高質量發展等社會經濟發展方面的新引擎。爲了全面展示AI大模型的發展全貌，爲各界提供新思路，本文將對AI大模型應用架構（ALLMA）白皮書進

2024-04-19 11:29:39

文心大模型ERNIE-Tiny：轻量化技术的全面解读

隨着人工智能技術的日益成熟，大模型成爲了衆多領域的研究熱點。大模型通過龐大的數據量和複雜的網絡結構，實現了對數據的深度挖掘和高效處理。然而，大模型的龐大體積和高計算成本也限制了其在一些實際場景中的應用。爲了解決這一問題，文心大模型ERNIE

2024-04-18 11:29:53

24小時熱門文章

最新文章

最新評論文章