多年算法老鸟告诉你，如何打比赛？如何从0开始搞一个新模型（CVR模型举例）

更多内容请关注微信公众号 ''codersStation"：

下面要说的，是结合了CTR，CVR等的一些经验，做的总结。看到是一种幸运。

基本上所有的CVR模型都会遇到重复点击，都会遇到延迟上报转化或者激活等数据。所以后面总结都会很有针对性。

1.筛选特征测试特征前，先对特征做分析，覆盖度分析，以及看特征不同取值下对转化率的影响。差别越大，或者呈正相关或者负相关，都可以测试这个特征。

2.CVR肯定存在重复点击行为，可能重复点击在安装后，可能在安装前，肯定都会存在。这时候如果如何避免重复点击的因素呢？可以采用冠军方案，看点击次数与转化率关系以及app每天转化率与当天click数目关系，会发现这样的结论：

用户点击次数越多，他的转化率越低，这里包含很大重复点击，是无效的。

app每天转化率和当天点击次数正相关。

互联网点击转化都是遵从这个结论的。所以可以加入点击次数和转化率两个特征，就可以尽量消除重复点击因素的影响。不用像文中排名26介绍的方法，重复点击设置个特征标识来表示消除重复影响，这种方式操作起来是比较麻烦的。

3.特征提取要在label之前。文中介绍了滑动窗口方式来实现。但是这样很麻烦，采用冠军的方案，直接以分小时，分1天，分3天，分15天计算转化率，构造这样时间序列曲线的转化率，就可以避免这个问题。

4.这是从百度获得的经验，还是很重要的：

特征的刻画，要想着用一个体系去刻画，可以理解为要想一个统一的名字去称呼这批特征,而不是零散的一个一个特征。

之前做CTR的时候，就是一个个孤立的特征加测效果，方法是对的，但是这里介绍的体系更值得学习。

比如此次tencent cvr比赛，

从用户历史流水，可以得到用户近期行为的刻画特征：包括 1.用户最近一次install app的时间差 2.用户激活app次数 3.app激活次数 4.app安装次数等等；

用户session专注度刻画；从用户安装app list得到用户偏好信息：1.用户安装app数目2.用户安装不同类别的app比例 3.用户安装当前类别的app数等等。

这个经验还是很重要的。

5.提高最终模型效果的方式

无外乎两种：

5.1 细粒度的扣特征，这个是细致活，有些特征不容易想起，但是也许对效果有提升。如feature要在label前。

5.2 堆模型：树模型+深度(NFFM ）等等

之前工作中也遇到过各种换模型都没有效果，最终发现是某个特征有问题的情况。

所以这里特征的重要性要比模型更加重要。特别要方式特征泄露。

终于把要说的说完了。

想起高考前的那个寒假，有位主持人这样说，今年高考语文试卷可能会考对联，这里我给大家介绍下对联，也许即将高考的你此刻正在电视机前收看，如果今年考到了，那是你的幸运。

如果你看到此篇文章，那是你的幸运。