個性化推薦系統（八）--- 機器學習深度學習召回集擴量

原創

2018-09-04 11:01

個性化推薦系統評價有兩個重要指標，一個是召回率一個是準確率。召回率就是：召回率=提取正確信息條數/樣本中

信息條數。準確率就是：準確率=提取出正確信息條數/提取信息條數。召回率大小直接影響準確率，直接影響機器學習模

型、深度學習模型線上效果。

模型實時計算第一步是模型上線，將spark、TensorFlow訓練模型通過實時加載，使用到線上實時CTR點擊量預估。

是機器學習模型第一步，第二步是不斷擴大線上召回集，增加新特徵來提升點擊量預估準確率。

今天主要分享下線上實時模型召回素材、特徵集擴容，最開始線上召回集數量是100，擴展到200，整個性能下降到

70ms，加上線上邏輯性能已不可接受。這時我們想了個方法用多線程進行多核計算提升性能。經過上線測試每個線程計

算50個數據，性能優化到計算只消耗3ms，已經線上使用。

進一步線上召回集擴到1000，採用增加線程每個線程100個特徵組，線上能能25ms，這種召回集擴量已在線上使用。

下一步在擴量，性能瓶頸已經是IO，而不是多線程計算。將計算服務改成jar包此時召回集可以進行擴量到2000。

在下一步擴召回集，取素材特徵與提供接口服務拆分、接口服務通過併發分佈式方式進行請求，此時召回集量應爲幾

種方式最大。需要調整接口服務與素材、特徵以及計算服務，通過測試得到IO、線程計算結果合併、多核計算的平衡，需

排期配合。

最後一步已基本和開源分佈式搜索引擎計算方式類似，後續會持續調研新的優化方式，並引入到線上。總結一下，主

要思路是先分開並採用多線程，在合併減少IO，最後通過分佈式計算實現召回集擴量。

公衆號：互聯網開發者Club

掃碼關注公衆號

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.