多年算法老鳥告訴你,如何打比賽?如何從0開始搞一個新模型(CVR模型舉例)

更多 內容  請關注微信公衆號 ''codersStation":

 

北漂大飛的轉正之路

 

 

下面要說的,是結合了CTR,CVR等的一些經驗,做的總結。看到是一種幸運。

 

基本上所有的CVR模型都會遇到重複點擊,都會遇到延遲上報轉化或者激活等數據。所以後面總結都會很有針對性。

 

1.篩選特徵測試特徵前,先對特徵做分析,覆蓋度分析,以及看特徵不同取值下對轉化率的影響。差別越大,或者呈正相關或者負相關,都可以測試這個特徵。

 

2.CVR肯定存在重複點擊行爲,可能重複點擊在安裝後,可能在安裝前,肯定都會存在。這時候如果如何避免重複點擊的因素呢?可以採用冠軍方案,看點擊次數與轉化率關係以及app每天轉化率與當天click數目關係,會發現這樣的結論:

 

用戶點擊次數越多,他的轉化率越低,這裏包含很大重複點擊,是無效的。

app每天轉化率和當天點擊次數正相關。

 

互聯網點擊轉化都是遵從這個結論的。所以可以加入點擊次數和轉化率兩個特徵,就可以儘量消除重複點擊因素的影響。不用像文中排名26介紹的方法,重複點擊設置個特徵標識來表示消除重複影響,這種方式操作起來是比較麻煩的。

 

3.特徵提取要在label之前。文中介紹了滑動窗口方式來實現。但是這樣很麻煩,採用冠軍的方案,直接以分小時,分1天,分3天,分15天計算轉化率,構造這樣時間序列曲線的轉化率,就可以避免這個問題。

 

4.這是從百度獲得的經驗,還是很重要的: 

特徵的刻畫,要想着用一個體系去刻畫,可以理解爲要想一個統一的名字去稱呼這批特徵,而不是零散的一個一個特徵。

之前做CTR的時候,就是一個個孤立的特徵加測效果,方法是對的,但是這裏介紹的體系更值得學習。

 

比如此次tencent cvr比賽,

從用戶歷史流水,可以得到用戶近期行爲的刻畫特徵:包括 1.用戶最近一次install app的時間差 2.用戶激活app次數 3.app激活次數 4.app安裝次數 等等;

用戶session專注度刻畫;從用戶安裝app list得到用戶偏好信息:1.用戶安裝app數目2.用戶安裝不同類別的app比例 3.用戶安裝當前類別的app數等等。

 

這個經驗還是很重要的。

 

5.提高最終模型效果的方式

 

無外乎兩種:

 

5.1 細粒度的扣特徵,這個是細緻活,有些特徵不容易想起,但是也許對效果有提升。如feature要在label前。

 

5.2 堆模型: 樹模型+深度(NFFM )等等

 

之前工作中也遇到過各種換模型都沒有效果,最終發現是某個特徵有問題的情況。

所以這裏特徵的重要性要比模型更加重要。特別要方式特徵泄露。

 

 

終於把要說的說完了。

 

 

想起高考前的那個寒假,有位主持人這樣說,今年高考語文試卷可能會考對聯,這裏我給大家介紹下對聯,也許即將高考的你此刻正在電視機前收看,如果今年考到了,那是你的幸運。

 

如果你看到此篇文章,那是你的幸運。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章