新的abtest方法: Innovating Faster on Personalization Algorithms at Netflix Using Interleaving

1. 我們在線上做實驗的時候,常常會用到abtest,來確定線上效果。而我們的abtest方法,往往就是對用戶進行分組,對於相同比例的隨機用戶,進行效果比較。這種方法有個前提/假定,就是各組隨機用戶的分佈是完全一樣的。當然,一般情況下(如用戶量特別大),這種方法大概率情況是不太有問題的,但是對於某些場景,如Netflix推薦場景,這種方法會有所侷限;

2. 在Netflix的推薦場景中,較少部分用戶是重度用戶,而只要這部分用戶在不同組中分佈有差別,就會導致對最後abtest結果有較大差別;

3. Netflix工程師提出一種新的abtest方法來解決這個問題——Interleaving,就是將abtest的2種方法同時提供給同一批用戶,如A模型的推薦結果是A1~A3,B模型的推薦結果是B1~B3,那麼隨機從A1-B1-A2-B2-A3-B3和B1-A1-B2-A2-B3-A3中取一組推薦結果給用戶,根據在模型A和模型B推薦視頻上用戶的消費行爲來對比效果;

4. Interleaving的優勢在於能夠在更少的流量上驗證效果,且準確性與傳統abtest有強相關性;

5. Interleaving的缺點是:
①工程上需要開發;
②只能得出對比的優劣關係,不能獲取數據的確定值;
所以Netflix先是用Interleaving篩掉一批表現差的實驗,從中選擇少量實驗再進行傳統的abtest(Interleaving+abtest);


參考資料: 
[1] https://medium.com/netflix-techblog/interleaving-in-online-experiments-at-netflix-a04ee392ec55
[2] https://www.leiphone.com/news/201906/Kgqjnk0PrL0LAyrJ.html


以上均爲個人見解,因本人水平有限,如發現有所錯漏,敬請指出,謝謝!

發佈了102 篇原創文章 · 獲贊 26 · 訪問量 13萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章