后Hadoop时代，爱奇艺如何有效整合大数据和AI平台？

原創

2021-09-11 08:03

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"采访嘉宾 | 刘骋昺"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"编辑 | Tina"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"大数据是人工智能的基础。从大数据到数据分析再到 AI 应用的转变，这也是一个很自然的发展过程。但是只有在数据、算法、企业的场景应用三者紧密配合的前提下，才可以有效地提升整个 AI 业务的流程。因此，爱奇艺在原来的数据积累基础上，进一步的完善了技术平台，形成了大数据+AI 的统一架构，同时兼顾了数据、算法训练、人力物力算力等多方面的因素。那么爱奇艺在探索和实践过程中，有哪些沉淀出的经验可以分享给大家？InfoQ采访了爱奇艺大数据计算团队负责人刘骋昺，得到了一个初步的了解。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"刘骋昺将在2021年11月5-6日全球人工智能与机器学习技术大会（北京站）2021上进行主题为《"},{"type":"link","attrs":{"href":"https:\/\/aicon.infoq.cn\/2021\/beijing\/presentation\/3720","title":null,"type":null},"content":[{"type":"text","text":"爱奇艺 Bigdata+AI 统一架构探索与实践"}],"marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"》的演讲，更多内容可以通过观看演讲进行了解。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"嘉宾简介：刘骋昺"},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"，毕业于上海交通大学计算机系，2014 年加入爱奇艺，先后负责 Hadoop 运维和研发，计算引擎和平台的设计和开发工作，对大数据服务的底层优化和平台建设有丰富经验。目前是大数据计算团队负责人，负责Spark\/Flink计算引擎、离线工作流、实时计算、实时分析、机器学习平台等相关工作。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"InfoQ：您们选择On-Prem 还是 Cloud 来实现大数据+AI平台？为什么？您们是如何做决策的？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"刘骋昺："},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"目前我们采用On-Prem和Cloud的混合云部署模式，以私有云部署为主体，在部分业务探索引入公有云服务。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"经过初步探索，我们发现公有云和私有云各有优劣，且能相互补充。公有云的优势在于按量付费，对于探索性的业务（如不确定使用什么硬件最合适），公有云的试错成本较低；对于峰谷效应明显的业务，公有云的自动扩缩容能力也能够帮助我们降低成本。私有云在运维支持端、稳定且高负载场景的成本端的表现更好。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"在我们看来，我们采用的混合云部署模式主要有两方面的好处。一方面，通过搭建统一的服务管理平台，对用户屏蔽底层使用的私有云或公有云资源，降低业务接入与切换的难度；另一方面，利用私有云部署，获得对云厂商的议价能力，同时保持对公有云动态的及时跟进，不断审视和改进私有云的服务能力。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"InfoQ：在之前的未曾改造的爱奇艺大数据平台上运行机器学习任务，存在哪些挑战？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"刘骋昺："},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"机器学习与大数据平台的结合，我们主要讨论特征数据处理与模型训练两方面。传统的大数据平台一般以Hadoop（HDFS+YARN）为基础，运行MapReduce、Hive、Spark、Flink等计算框架。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"在特征数据处理方面，我们最常用的是Hive和Spark，要把计算任务跑起来难度不大，主要的挑战在于工程效率与大数据量下的性能表现。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"相比而言，在模型训练方面的挑战更大，主要体现在："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"1）框架支持：需要在Hadoop上支持分布式地运行机器学习框架（如TensorFlow、PyTorch等）；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"2）资源调度：机器学习任务单进程的CPU、内存资源占用经常较大，且不同进程的资源需求不同，需要考虑这些在Hadoop集群上如何分布才能最大化资源利用率；另外，有的模型训练需要用到GPU，YARN从3.0版本开始加入了对GPU的支持，在后续版本逐步完善；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"3）Docker支持：机器学习任务对环境依赖较多且各不同，因此加入对Docker的支持就显得十分必要，而老版本的Hadoop集群对Docker的支持比较初级，所以也需要对Hadoop集群做版本升级。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"InfoQ：大数据+AI平台的“整合”，关键要解决的核心问题是什么？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"刘骋昺："},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"核心问题是数据和计算的整合。传统的机器学习把数据放在一台独立的机器上，仅利用单机的计算资源进行模型训练，如此一来，大数据和AI成了两个完全独立的系统。而只有充分利用大数据平台丰富的存储和计算资源，才能充分发挥AI的威力。因此，整合的核心问题是把AI相关的数据接入大数据平台，并利用大数据平台的计算资源运行分布式的模型训练，"},{"type":"text","marks":[{"type":"color","attrs":{"color":"#3a3a3a","name":"user"}}],"text":"将特征生产、样本生产、模型训练、模型管理打通"},{"type":"text","text":"。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"有了数据和计算的整合，下一步是元数据的统一管理，可以帮助我们解决烟囱式开发的问题，节省开发人力和计算资源，提高数据和模型质量。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"InfoQ：架构上是如何实现存储计算分离的？您们是如何兼顾存储和计算的效率？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"刘骋昺："},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"我们通过自研QBFS（爱奇艺大数据文件系统）实现存储计算分离。QBFS是一个虚拟的文件系统，底层支持多种存储类型（HDFS、公有云对象存储、私有云对象存储等），通过虚拟路径与底层存储的映射关系，实现计算任务在任何集群都能访问QBFS中的数据，即事实上的存储计算分离。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"存储计算分离在取得分层存储降低存储成本、跨集群统一访问、透明迁移等优势的同时，势必会带来一些问题，如跨集群访问效率下降、网络流量上升等。我们的应对措施有如下几点："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"1）使用先进的压缩算法、EC等技术，降低文件大小；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"2）通过优化文件格式，采用列式存储，降低读取的数据量；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"3）使用分布式缓存技术（如Alluxio），避免对同一份数据的多次读取（目前处于测试阶段）；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"4）数据读取与计算同时进行：以TensorFlow为例，使用Dataset API实现数据读取Pipeline，在计算的同时读取下一步计算所需的数据，使得计算可以连续进行，数据读取不成为限制计算时长的因素。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"InfoQ：是否存在多租户的问题？您们通过什么技术手段解决这些供需关系？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"刘骋昺："},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"我们的大数据+AI平台是支持多租户的，租户的粒度是一个具体的业务或者项目。需要解决的问题有："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"1）平台接入：用户在平台上提交任务，平台以超级用户代理为业务用户，提交任务到集群，这里用到了Hadoop的proxy user的机制；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"2）计算资源隔离：利用YARN的scheduler，业务根据需求申请计算队列，管理员通过设置队列的min、max、weight、max applications等属性控制各种条件下一个队列能够申请的资源量，实现计算资源的分配与隔离。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"InfoQ：构建统一的大数据+AI平台系统最容易出现的瓶颈是什么？您们是如何解决的？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"刘骋昺："},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"在特征数据处理方面，大量的计算任务会占据大量的计算资源，拖慢整体的产出时间。平台通过建立统一的特征库，实现基于配置的特征计算，统一优化计算效率，并加强特征复用，减少重复计算，使得产出时间得到保障。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"在模型训练方面，大规模分布式训练会占用较多的CPU、内存、网络带宽等资源。平台通过监控资源利用率，合理分布不同类型的进程（如搭配内存需求大的任务和CPU需求大的任务），采用合适的机型等措施，提高资源利用率。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"InfoQ：针对爱奇艺的场景，研发这套平台时，您们做了哪些定制化的工作？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"刘骋昺："},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"定制化的工作主要体现在特征算子上。我们整理了特征计算中常用的10多种计算逻辑，在启用平台之前，这些逻辑一般通过SQL表达，多种逻辑的组合使得SQL较长，可读性较差。我们将这些逻辑抽象成算子，算子之间通过协同工作形成一张DAG图，以此来代替SQL，增强逻辑的可读性，并统一优化计算效率。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"InfoQ：运行这套平台之后，它对业务最大的改善目前体现在哪里？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"刘骋昺："},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"首先，大规模分布式的模型训练更加便利，而且性能也得到了大幅提升，业务可以采用更多的数据，更早产出模型，提升业务效果。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"其次，特征管理、生产、监控与复用为业务提供了更规范化的方式，避免了烟囱式开发，提升了开发、计算效率和数据质量。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"InfoQ：展望未来，您们看到可能的大数据+AI平台的发展方向\/技术趋势是什么？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"刘骋昺："},{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"在未来，随着更多的业务场景采用机器学习，模型的复杂度越来越高，大数据平台中AI计算所占的比例会进一步提高。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"在AI技术方面，由于短视频和信息流技术的发展，实时化的online learning会被更多业务场景采用。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"最后，随着多方合作需求增加，以及国家对隐私保护和数据安全的法规逐步落地，以联邦学习和多方安全计算为代表的隐私计算技术会得到更广泛的应用。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}},{"type":"strong"}],"text":"活动推荐"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#494949","name":"user"}}],"text":"11 月 5-6 日，AICon 全球人工智能与机器学习技术大会将落地北京国际会议中心。包括主题演讲在内，本次大会共设置了 NLP 技术与应用、人工智能前沿技术、通用机器学习技术、计算机视觉实践、推荐广告技术与实践、AI 工程师团队建设与管理、认知智能的前沿探索、AI 与产业互联网结合、大数据计算和分析、智能语音前沿技术应用、大规模预训练模型进展、自动驾驶技术等 14 个专题。目前大会门票限时 8 折特惠中，购票欢迎联系票务小姐姐文柳：13269078023（电话同微信）"}]}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

30 秒出服装设计稿，森马用函数计算+AIGC 整“新活”!

創新項目如何去賦能我們的業務，這件事情在森馬很重要。阿里雲函數計算幫我們屏蔽掉了想把AI落地到實際業務場景中 GPU 算力資源儲備、採購成本、技術門檻等很多難題，從而迅速做出決策，快人一步站在正確的起點，體驗新技術對整個服裝爆款設計、營銷

2024-04-30 21:12:14

三喜临门！信必优连收三家金融行业客户表扬信

近日，信必優陸續收到全球知名銀行客戶、中國證券行業TOP級客戶、中國期貨行業TOP級客戶的表揚信。客戶高度讚揚我司員工在工作中表現突出，以積極主動、團結協作的工作態度和出色的技術能力，在技術團隊中做出表率，爲項目的順利交付做出重要貢獻。

2024-04-29 22:32:22

Sealos 云主机正式上线，便宜，便宜，便宜！

我們基於 Sealos 雲開發的能力，僅用三天時間就上線 Sealos 的雲主機能力，現在不太懂容器的同學也可以在 Sealos 上開心的使用虛擬機了，本文先說 Sealos 雲主機的優勢，再聊聊我們是怎麼這麼快實現上線的，以及爲什麼我們要

2024-04-26 21:14:40

Nacos 安全零信任实践

作者：柳遵飛 Nacos 作爲配置中心經常存儲一些敏感信息，但是由於誤用導致安全風險，最常見的主要是以下兩個問題： 1）Nacos 暴露公網可以嗎？不可以，因爲 Nacos 定位是註冊配置中心，是內部系統，不應該暴露到公網使用。 2）不得已

2024-04-26 21:12:11

西安站开营！AI 编码助手通义灵码帮大学生“整活儿”

如何更好地與 AI 爲伴，做時代的先進開發者？4 月 17 日，阿里雲推出的 AI 編程助手通義靈碼與雲工開物“高校訓練營”走進西安多所高校開啓實操培訓，結合 AI 輔助編程的發展背景、通義靈碼的具體能力和應用實操，幫助在校大學生了解人工智

2024-04-24 21:12:06

沙特2030年愿景和对中国IT企业的市场机会分析

沙特2030年願景和對中國IT企業的市場機會分析前言：最近“開源老DJ，帶你去沙特”欄目第一期已經播出，收到了不錯的反響。見COPU官網的回顧。（https://mp.weixin.qq.com/s/3B0jNVhybxTF1xPiy

2024-04-23 22:24:54

京东内部研效架构师训练营，首次对外公开课，不可错过的研效之旅！

五月繁花似錦，讓我們帶你走進京東，開啓研效實戰之旅！四大單位聯合發起本次活動由“全國雲計算技術行業產教融合共同體”發起，聯合工業和信息化部電子第五研究所、E³CI軟件研發效能度量工作委員會、京東雲共同主辦，重磅推出“卓越研效架構師”

京東雲開發者

2024-04-19 11:16:30

RocketMQ 事件驱动：云时代的事件驱动有啥不同？

作者：林清山（隆基）前言：從初代開源消息隊列崛起，到 PC 互聯網、移動互聯網爆發式發展，再到如今 IoT、雲計算、雲原生引領了新的技術趨勢，消息中間件的發展已經走過了 30 多個年頭。目前，消息中間件在國內許多行業的關鍵應用中扮演着

2024-04-15 21:12:21

2024年DataOps趋势预测：AI不会取代数据工程师

APM digest收集了多位行業專家對DataOps在2024的發展形勢及對IT和業務的影響的預測，這些技術最高管理者，包括Confluent技術戰略負責人Andrew Sellers的深刻洞見可能與你的感覺一致嗎？快來探討一下。數據可

2024-04-30 11:49:29

数字化转型新篇章：企业通往智能化的新范式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

AI从入门到入门之手写数字识别模型java方式Dense全连接神经网络实现

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

Pinecone: 大模型时代的智能索引与搜索解决方案

隨着人工智能技術的飛速發展，大模型（Large Models）已成爲衆多領域的重要工具。無論是自然語言處理、圖像識別還是其他複雜任務，大模型都展現出了強大的性能。然而，隨着模型規模的不斷擴大，數據量的激增，如何有效地管理、索引和搜索這些模型

2024-04-19 11:29:43

软件测试从自动化到智能化，大模型开始加入

隨着科技的飛速發展，軟件行業也在不斷地演進和創新。作爲軟件行業的關鍵環節之一，軟件測試行業也在經歷着前所未有的變革。從最初的手動測試，到自動化測試，再到如今的智能化測試，軟件測試行業正在經歷一場深刻的技術革命。在這場革命中，Testin雲測

2024-04-19 00:53:25

裁员了！别错过2024年大数据工程师必备的10项技能

在當今快速發展的世界中，數據被視爲新的石油。隨着對數據驅動洞察的日益依賴，大數據工程師的角色比以往任何時候都更爲關鍵。這些專業人員在管理和優化組織內的數據操作中扮演着至關重要的角色。在本文中，我們將探索2024年大數據工程師必須具備的十

2024-04-16 11:00:53

24小時熱門文章

最新文章

最新評論文章