導讀: 微博作爲國內比較主流的社交媒體平臺,目前擁有2.22億日活用戶和5.16億月活用戶。如何爲用戶實時推薦優質內容,背後離不開微博的大規模機器學習平臺。本文由微博機器學習研發中心高級算法工程師於茜老師分享,主要內容包含以下四部分:
- 關於微博
- 微博機器學習平臺 ( WML ) 總覽
- Flink在WML中的應用
- 使用Flink的下一步計劃
01 關於微博
微博2008年上線,是目前國內比較主流的社交媒體平臺,擁有2.22億日活用戶和5.16億月活用戶,爲用戶提供在線創作、分享和發現優質內容的服務;目前微博的大規模機器學習平臺可以支持千億參數和百萬QPS。
02 微博機器學習平臺 ( WML ) 總覽
接下來介紹一下微博機器學習平臺,即WML的總覽;機器學習平臺 ( WML ) 爲CTR、多媒體等各類機器學習和深度學習算法提供從樣本處理、模型訓練、服務部署到模型預估的一站式服務。
1. 總覽
上方是WML的一個整體架構圖,共分爲六層,從下至上依次介紹:
- 集羣層:包含離線計算集羣、在線計算集羣和高性能計算集羣;
- 調度層:包含自研的WeiBox ( 提供使用通用的接口將任務提交到不同集羣的能力 )、Weiflow ( 提供將任務間的依賴關係處理好、組成DAG工作流的能力 ),以及常見的調度引擎Yarn和K8s;
- 計算平臺層:包含自研的WeiLearn ( 提供給用戶在該平臺做業務開發的能力 ),以及Hadoop/Spark離線計算平臺、Flink/Storm在線計算平臺和Tensorflow機器學習平臺;
- 模型訓練層:目前支持LR、GBDT、FM/FFM、CF/MF、DNN/RNN等主流的算法;
- 在線推理層:包含自研的WeiServing和WeiPS;
- 業務應用層:主要應用場景是特徵生成、樣本服務、在線訓練和在線推理;
- 右邊是自定義的一些概念,樣本庫、模型庫、服務庫以及兩個任務提交方式WeiClient ( CLI方式提交 )、WAIC UI ( 界面操作 )。
原文鏈接:【https://www.infoq.cn/article/vc71sSa0Ug439BXm2kNO】。未經作者許可,禁止轉載。