更多 内容 请关注微信公众号 ''codersStation":
下面要说的,是结合了CTR,CVR等的一些经验,做的总结。看到是一种幸运。
基本上所有的CVR模型都会遇到重复点击,都会遇到延迟上报转化或者激活等数据。所以后面总结都会很有针对性。
1.筛选特征测试特征前,先对特征做分析,覆盖度分析,以及看特征不同取值下对转化率的影响。差别越大,或者呈正相关或者负相关,都可以测试这个特征。
2.CVR肯定存在重复点击行为,可能重复点击在安装后,可能在安装前,肯定都会存在。这时候如果如何避免重复点击的因素呢?可以采用冠军方案,看点击次数与转化率关系以及app每天转化率与当天click数目关系,会发现这样的结论:
用户点击次数越多,他的转化率越低,这里包含很大重复点击,是无效的。
app每天转化率和当天点击次数正相关。
互联网点击转化都是遵从这个结论的。所以可以加入点击次数和转化率两个特征,就可以尽量消除重复点击因素的影响。不用像文中排名26介绍的方法,重复点击设置个特征标识来表示消除重复影响,这种方式操作起来是比较麻烦的。
3.特征提取要在label之前。文中介绍了滑动窗口方式来实现。但是这样很麻烦,采用冠军的方案,直接以分小时,分1天,分3天,分15天计算转化率,构造这样时间序列曲线的转化率,就可以避免这个问题。
4.这是从百度获得的经验,还是很重要的:
特征的刻画,要想着用一个体系去刻画,可以理解为要想一个统一的名字去称呼这批特征,而不是零散的一个一个特征。
之前做CTR的时候,就是一个个孤立的特征加测效果,方法是对的,但是这里介绍的体系更值得学习。
比如此次tencent cvr比赛,
从用户历史流水,可以得到用户近期行为的刻画特征:包括 1.用户最近一次install app的时间差 2.用户激活app次数 3.app激活次数 4.app安装次数 等等;
用户session专注度刻画;从用户安装app list得到用户偏好信息:1.用户安装app数目2.用户安装不同类别的app比例 3.用户安装当前类别的app数等等。
这个经验还是很重要的。
5.提高最终模型效果的方式
无外乎两种:
5.1 细粒度的扣特征,这个是细致活,有些特征不容易想起,但是也许对效果有提升。如feature要在label前。
5.2 堆模型: 树模型+深度(NFFM )等等
之前工作中也遇到过各种换模型都没有效果,最终发现是某个特征有问题的情况。
所以这里特征的重要性要比模型更加重要。特别要方式特征泄露。
终于把要说的说完了。
想起高考前的那个寒假,有位主持人这样说,今年高考语文试卷可能会考对联,这里我给大家介绍下对联,也许即将高考的你此刻正在电视机前收看,如果今年考到了,那是你的幸运。
如果你看到此篇文章,那是你的幸运。