微博基於Flink的機器學習實踐

導讀: 微博作爲國內比較主流的社交媒體平臺,目前擁有2.22億日活用戶和5.16億月活用戶。如何爲用戶實時推薦優質內容,背後離不開微博的大規模機器學習平臺。本文由微博機器學習研發中心高級算法工程師於茜老師分享,主要內容包含以下四部分:

  • 關於微博
  • 微博機器學習平臺 ( WML ) 總覽
  • Flink在WML中的應用
  • 使用Flink的下一步計劃

01 關於微博

微博2008年上線,是目前國內比較主流的社交媒體平臺,擁有2.22億日活用戶和5.16億月活用戶,爲用戶提供在線創作、分享和發現優質內容的服務;目前微博的大規模機器學習平臺可以支持千億參數和百萬QPS。

02 微博機器學習平臺 ( WML ) 總覽

接下來介紹一下微博機器學習平臺,即WML的總覽;機器學習平臺 ( WML ) 爲CTR、多媒體等各類機器學習和深度學習算法提供從樣本處理、模型訓練、服務部署到模型預估的一站式服務。

1. 總覽

上方是WML的一個整體架構圖,共分爲六層,從下至上依次介紹:

  • 集羣層:包含離線計算集羣、在線計算集羣和高性能計算集羣;
  • 調度層:包含自研的WeiBox ( 提供使用通用的接口將任務提交到不同集羣的能力 )、Weiflow ( 提供將任務間的依賴關係處理好、組成DAG工作流的能力 ),以及常見的調度引擎Yarn和K8s;
  • 計算平臺層:包含自研的WeiLearn ( 提供給用戶在該平臺做業務開發的能力 ),以及Hadoop/Spark離線計算平臺、Flink/Storm在線計算平臺和Tensorflow機器學習平臺;
  • 模型訓練層:目前支持LR、GBDT、FM/FFM、CF/MF、DNN/RNN等主流的算法;
  • 在線推理層:包含自研的WeiServing和WeiPS;
  • 業務應用層:主要應用場景是特徵生成、樣本服務、在線訓練和在線推理;
  • 右邊是自定義的一些概念,樣本庫、模型庫、服務庫以及兩個任務提交方式WeiClient ( CLI方式提交 )、WAIC UI ( 界面操作 )。

原文鏈接:【https://www.infoq.cn/article/vc71sSa0Ug439BXm2kNO】。未經作者許可,禁止轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章