多年算法老鸟告诉你,如何打比赛?如何从0开始搞一个新模型(CVR模型举例)

更多 内容  请关注微信公众号 ''codersStation":

 

北漂大飞的转正之路

 

 

下面要说的,是结合了CTR,CVR等的一些经验,做的总结。看到是一种幸运。

 

基本上所有的CVR模型都会遇到重复点击,都会遇到延迟上报转化或者激活等数据。所以后面总结都会很有针对性。

 

1.筛选特征测试特征前,先对特征做分析,覆盖度分析,以及看特征不同取值下对转化率的影响。差别越大,或者呈正相关或者负相关,都可以测试这个特征。

 

2.CVR肯定存在重复点击行为,可能重复点击在安装后,可能在安装前,肯定都会存在。这时候如果如何避免重复点击的因素呢?可以采用冠军方案,看点击次数与转化率关系以及app每天转化率与当天click数目关系,会发现这样的结论:

 

用户点击次数越多,他的转化率越低,这里包含很大重复点击,是无效的。

app每天转化率和当天点击次数正相关。

 

互联网点击转化都是遵从这个结论的。所以可以加入点击次数和转化率两个特征,就可以尽量消除重复点击因素的影响。不用像文中排名26介绍的方法,重复点击设置个特征标识来表示消除重复影响,这种方式操作起来是比较麻烦的。

 

3.特征提取要在label之前。文中介绍了滑动窗口方式来实现。但是这样很麻烦,采用冠军的方案,直接以分小时,分1天,分3天,分15天计算转化率,构造这样时间序列曲线的转化率,就可以避免这个问题。

 

4.这是从百度获得的经验,还是很重要的: 

特征的刻画,要想着用一个体系去刻画,可以理解为要想一个统一的名字去称呼这批特征,而不是零散的一个一个特征。

之前做CTR的时候,就是一个个孤立的特征加测效果,方法是对的,但是这里介绍的体系更值得学习。

 

比如此次tencent cvr比赛,

从用户历史流水,可以得到用户近期行为的刻画特征:包括 1.用户最近一次install app的时间差 2.用户激活app次数 3.app激活次数 4.app安装次数 等等;

用户session专注度刻画;从用户安装app list得到用户偏好信息:1.用户安装app数目2.用户安装不同类别的app比例 3.用户安装当前类别的app数等等。

 

这个经验还是很重要的。

 

5.提高最终模型效果的方式

 

无外乎两种:

 

5.1 细粒度的扣特征,这个是细致活,有些特征不容易想起,但是也许对效果有提升。如feature要在label前。

 

5.2 堆模型: 树模型+深度(NFFM )等等

 

之前工作中也遇到过各种换模型都没有效果,最终发现是某个特征有问题的情况。

所以这里特征的重要性要比模型更加重要。特别要方式特征泄露。

 

 

终于把要说的说完了。

 

 

想起高考前的那个寒假,有位主持人这样说,今年高考语文试卷可能会考对联,这里我给大家介绍下对联,也许即将高考的你此刻正在电视机前收看,如果今年考到了,那是你的幸运。

 

如果你看到此篇文章,那是你的幸运。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章