导读: 微博作为国内比较主流的社交媒体平台,目前拥有2.22亿日活用户和5.16亿月活用户。如何为用户实时推荐优质内容,背后离不开微博的大规模机器学习平台。本文由微博机器学习研发中心高级算法工程师于茜老师分享,主要内容包含以下四部分:
- 关于微博
- 微博机器学习平台 ( WML ) 总览
- Flink在WML中的应用
- 使用Flink的下一步计划
01 关于微博
微博2008年上线,是目前国内比较主流的社交媒体平台,拥有2.22亿日活用户和5.16亿月活用户,为用户提供在线创作、分享和发现优质内容的服务;目前微博的大规模机器学习平台可以支持千亿参数和百万QPS。
02 微博机器学习平台 ( WML ) 总览
接下来介绍一下微博机器学习平台,即WML的总览;机器学习平台 ( WML ) 为CTR、多媒体等各类机器学习和深度学习算法提供从样本处理、模型训练、服务部署到模型预估的一站式服务。
1. 总览
上方是WML的一个整体架构图,共分为六层,从下至上依次介绍:
- 集群层:包含离线计算集群、在线计算集群和高性能计算集群;
- 调度层:包含自研的WeiBox ( 提供使用通用的接口将任务提交到不同集群的能力 )、Weiflow ( 提供将任务间的依赖关系处理好、组成DAG工作流的能力 ),以及常见的调度引擎Yarn和K8s;
- 计算平台层:包含自研的WeiLearn ( 提供给用户在该平台做业务开发的能力 ),以及Hadoop/Spark离线计算平台、Flink/Storm在线计算平台和Tensorflow机器学习平台;
- 模型训练层:目前支持LR、GBDT、FM/FFM、CF/MF、DNN/RNN等主流的算法;
- 在线推理层:包含自研的WeiServing和WeiPS;
- 业务应用层:主要应用场景是特征生成、样本服务、在线训练和在线推理;
- 右边是自定义的一些概念,样本库、模型库、服务库以及两个任务提交方式WeiClient ( CLI方式提交 )、WAIC UI ( 界面操作 )。
原文链接:【https://www.infoq.cn/article/vc71sSa0Ug439BXm2kNO】。未经作者许可,禁止转载。