多年算法老鳥告訴你，如何打比賽？如何從0開始搞一個新模型（CVR模型舉例）

更多內容請關注微信公衆號 ''codersStation"：

下面要說的，是結合了CTR，CVR等的一些經驗，做的總結。看到是一種幸運。

基本上所有的CVR模型都會遇到重複點擊，都會遇到延遲上報轉化或者激活等數據。所以後面總結都會很有針對性。

1.篩選特徵測試特徵前，先對特徵做分析，覆蓋度分析，以及看特徵不同取值下對轉化率的影響。差別越大，或者呈正相關或者負相關，都可以測試這個特徵。

2.CVR肯定存在重複點擊行爲，可能重複點擊在安裝後，可能在安裝前，肯定都會存在。這時候如果如何避免重複點擊的因素呢？可以採用冠軍方案，看點擊次數與轉化率關係以及app每天轉化率與當天click數目關係，會發現這樣的結論：

用戶點擊次數越多，他的轉化率越低，這裏包含很大重複點擊，是無效的。

app每天轉化率和當天點擊次數正相關。

互聯網點擊轉化都是遵從這個結論的。所以可以加入點擊次數和轉化率兩個特徵，就可以儘量消除重複點擊因素的影響。不用像文中排名26介紹的方法，重複點擊設置個特徵標識來表示消除重複影響，這種方式操作起來是比較麻煩的。

3.特徵提取要在label之前。文中介紹了滑動窗口方式來實現。但是這樣很麻煩，採用冠軍的方案，直接以分小時，分1天，分3天，分15天計算轉化率，構造這樣時間序列曲線的轉化率，就可以避免這個問題。

4.這是從百度獲得的經驗，還是很重要的：

特徵的刻畫，要想着用一個體系去刻畫，可以理解爲要想一個統一的名字去稱呼這批特徵,而不是零散的一個一個特徵。

之前做CTR的時候，就是一個個孤立的特徵加測效果，方法是對的，但是這裏介紹的體系更值得學習。

比如此次tencent cvr比賽，

從用戶歷史流水，可以得到用戶近期行爲的刻畫特徵：包括 1.用戶最近一次install app的時間差 2.用戶激活app次數 3.app激活次數 4.app安裝次數等等；

用戶session專注度刻畫；從用戶安裝app list得到用戶偏好信息：1.用戶安裝app數目2.用戶安裝不同類別的app比例 3.用戶安裝當前類別的app數等等。

這個經驗還是很重要的。

5.提高最終模型效果的方式

無外乎兩種：

5.1 細粒度的扣特徵，這個是細緻活，有些特徵不容易想起，但是也許對效果有提升。如feature要在label前。

5.2 堆模型：樹模型+深度(NFFM ）等等

之前工作中也遇到過各種換模型都沒有效果，最終發現是某個特徵有問題的情況。

所以這裏特徵的重要性要比模型更加重要。特別要方式特徵泄露。

終於把要說的說完了。

想起高考前的那個寒假，有位主持人這樣說，今年高考語文試卷可能會考對聯，這裏我給大家介紹下對聯，也許即將高考的你此刻正在電視機前收看，如果今年考到了，那是你的幸運。

如果你看到此篇文章，那是你的幸運。