更多 內容 請關注微信公衆號 ''codersStation":
下面要說的,是結合了CTR,CVR等的一些經驗,做的總結。看到是一種幸運。
基本上所有的CVR模型都會遇到重複點擊,都會遇到延遲上報轉化或者激活等數據。所以後面總結都會很有針對性。
1.篩選特徵測試特徵前,先對特徵做分析,覆蓋度分析,以及看特徵不同取值下對轉化率的影響。差別越大,或者呈正相關或者負相關,都可以測試這個特徵。
2.CVR肯定存在重複點擊行爲,可能重複點擊在安裝後,可能在安裝前,肯定都會存在。這時候如果如何避免重複點擊的因素呢?可以採用冠軍方案,看點擊次數與轉化率關係以及app每天轉化率與當天click數目關係,會發現這樣的結論:
用戶點擊次數越多,他的轉化率越低,這裏包含很大重複點擊,是無效的。
app每天轉化率和當天點擊次數正相關。
互聯網點擊轉化都是遵從這個結論的。所以可以加入點擊次數和轉化率兩個特徵,就可以儘量消除重複點擊因素的影響。不用像文中排名26介紹的方法,重複點擊設置個特徵標識來表示消除重複影響,這種方式操作起來是比較麻煩的。
3.特徵提取要在label之前。文中介紹了滑動窗口方式來實現。但是這樣很麻煩,採用冠軍的方案,直接以分小時,分1天,分3天,分15天計算轉化率,構造這樣時間序列曲線的轉化率,就可以避免這個問題。
4.這是從百度獲得的經驗,還是很重要的:
特徵的刻畫,要想着用一個體系去刻畫,可以理解爲要想一個統一的名字去稱呼這批特徵,而不是零散的一個一個特徵。
之前做CTR的時候,就是一個個孤立的特徵加測效果,方法是對的,但是這裏介紹的體系更值得學習。
比如此次tencent cvr比賽,
從用戶歷史流水,可以得到用戶近期行爲的刻畫特徵:包括 1.用戶最近一次install app的時間差 2.用戶激活app次數 3.app激活次數 4.app安裝次數 等等;
用戶session專注度刻畫;從用戶安裝app list得到用戶偏好信息:1.用戶安裝app數目2.用戶安裝不同類別的app比例 3.用戶安裝當前類別的app數等等。
這個經驗還是很重要的。
5.提高最終模型效果的方式
無外乎兩種:
5.1 細粒度的扣特徵,這個是細緻活,有些特徵不容易想起,但是也許對效果有提升。如feature要在label前。
5.2 堆模型: 樹模型+深度(NFFM )等等
之前工作中也遇到過各種換模型都沒有效果,最終發現是某個特徵有問題的情況。
所以這裏特徵的重要性要比模型更加重要。特別要方式特徵泄露。
終於把要說的說完了。
想起高考前的那個寒假,有位主持人這樣說,今年高考語文試卷可能會考對聯,這裏我給大家介紹下對聯,也許即將高考的你此刻正在電視機前收看,如果今年考到了,那是你的幸運。
如果你看到此篇文章,那是你的幸運。