論文地址:http://research.baidu.com/Public/uploads/5d12eca098d40.pdf
廣告不同階段優化目標不一致
普通用戶看到的三個階段,曝光-點擊-轉化
背後是一套複雜的召回排序系統
- 召回階段:建立query,可以是用戶的搜索信息,也可以是廣告位的屬性或者上下文信息,這個階段主要考慮相關性
- 排序:根據召回物料預估CTR,排序,找到TopK物料返回
從原始物料庫到最終呈現給用戶的物料,在數量上表現爲倒三角的關係
下面例子是一個比較成功的呈現
論文給了一個bad case例子,互聯網長尾流量(普通用戶比較少關注的物品)中,搜索白玫瑰(white house),由於奔馳與特斯拉是頭部流量,那麼天然具有很高的出現頻率,query或者ad中有一個頻率高,那麼ctr模型也會認爲這個query-ad pair的ctr很高,也就會導致召回質量差的物料,比如搜索白玫瑰,最終呈現奔馳。
所以存在這樣一個情況:低相關性但是預估CTR高的ad投放出去了。
從經驗上看,實際的CTR可能因爲query-ad 不相關而表現不佳
解決方案
最終返回的高CTR推薦物料
論文主要的思路是把相關性低的物料且高CTR的物料(也就是bad cases)篩選出來。
query-ad 的相關性,設置一個閾值,然後標記爲**【bad cases】**(低相關性並且高ctr), 需要提前採集的樣本或者人工構造
模型最終是三分類模型,與傳統二分類CTR模型不一樣,可以用bad case先過濾掉一部分高ctr的內容
算法沒有本質上實現多目標優化,是通過減少召回層與排序層的不匹配數量達到CTR ROI聯合優化
高效檢索
ANN和MIPS提高 檢索效率是工程技巧,與算法模型關聯性不是很大。