問題:
深度模型相比LR模型,離線auc高於基線,線上ctr也高於,但是線上深度模型AUC低於基線。
一般,線上樣本存在bias,新模型去測試基線流量和實驗流量,實驗流量auc會高。
分析:
1 可能是auc失真,不同用戶排序結果不可比
使用gauc衡量
2 用戶auc分佈
實驗曝光未點擊較多
分析2 去掉只曝光行爲用戶
結論:auc在高分段實驗更有優勢
3 瀏覽長度和雙用戶樣本分佈差異
結論
1 深度模型分佈更均勻,召回差異小,auc不可比,gauc只能參考。
2 模型分佈發生變化,深度模型召回後排序難度更高。線上AB實驗樣本不一致,auc無可比性。
3 新模型展示商品質量上升,用戶點擊數有限,導致分數高的樣本加入負樣本,auc降低。
參考:
https://zhuanlan.zhihu.com/p/42521586
作者:eerfgaofree
鏈接:https://www.jianshu.com/p/1fa628916394
來源:簡書
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。