1. 性能問題。
2.用的數據來源問題問題。match階段一般是用的多個系統的數據組成的行爲序列,比如搜索+個性化推薦的系統的數據。點擊率預估一般是用的自己的個性化推薦的系統數據。例如上圖的match和rank的數據是不同的。rank採用的數據是impressive(我理解的是展現的)和觀察的數據。而match用的數據有search的數據。
簡而言之,CTR預估的數據是用的展現數據,是基於pv數據來預估的。而match階段的數據是全庫數據,所以預測有偏差
如果一個平臺有1000w商品,展示的只有100w,該如何解決?
首先,一定有某個系統可以將這1000w系統以一定的概率展示出來,比如搜索系統。否則如果推薦也不出,搜索也不出,則商家利益受損。
1.推薦系統用搜索系統的數據,比如用搜索日誌的數據,來構建行爲序列。
2.冷啓動處理。用規則來敢於