個性化推薦系統(八)--- 機器學習深度學習召回集擴量

      個性化推薦系統評價有兩個重要指標,一個是召回率一個是準確率。召回率就是:召回率=提取正確信息條數/樣本中

信息條數。準確率就是:準確率=提取出正確信息條數/提取信息條數。召回率大小直接影響準確率,直接影響機器學習模

型、深度學習模型線上效果。


       模型實時計算第一步是模型上線,將spark、TensorFlow訓練模型通過實時加載,使用到線上實時CTR點擊量預估。

是機器學習模型第一步,第二步是不斷擴大線上召回集,增加新特徵來提升點擊量預估準確率。


       今天主要分享下線上實時模型召回素材、特徵集擴容,最開始線上召回集數量是100,擴展到200,整個性能下降到

70ms,加上線上邏輯性能已不可接受。這時我們想了個方法用多線程進行多核計算提升性能。經過上線測試每個線程計

算50個數據,性能優化到計算只消耗3ms,已經線上使用。


        進一步線上召回集擴到1000,採用增加線程每個線程100個特徵組,線上能能25ms,這種召回集擴量已在線上使用。

       下一步在擴量,性能瓶頸已經是IO,而不是多線程計算。將計算服務改成jar包此時召回集可以進行擴量到2000。

       在下一步擴召回集,取素材特徵與提供接口服務拆分、接口服務通過併發分佈式方式進行請求,此時召回集量應爲幾

種方式最大。需要調整接口服務與素材、特徵以及計算服務,通過測試得到IO、線程計算結果合併、多核計算的平衡,需

排期配合。


       最後一步已基本和開源分佈式搜索引擎計算方式類似,後續會持續調研新的優化方式,並引入到線上。總結一下,主

要思路是先分開並採用多線程,在合併減少IO,最後通過分佈式計算實現召回集擴量。

公衆號:互聯網開發者Club

      掃碼關注公衆號


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章