推荐算法(三)基于标签的算法--CTR预估

1、在工业界,数据量非常大,如果用pandas读入,虽然方便后续数据操作,但占用内存过多。工业界一般存储稀疏数据用LIBSVM。

2、在进行建模前,先进行探索,删除脏数据,分析下各个特征的初步效果;对不均衡的样本,下采样,然后有多个分类器,通过bagging合并。

3、在排序ranking场景下,评估指标经常是AUC

4 时间预处理:映射为不同的时间段

5、如果某一列的类别太多,(1)先做聚类;(2)离散化

6、每个值出现的频次比较重要,对于频次较低,观察低频数值,(1)离群点,(2)作为rule ,(3)把低频的合在一起作为一列

7、大规模数据借助spark,MLlib  and pipeline,利用pyspark

8、模型融合,每个模型预测的结果作为输入,训练一个线性的model,得到每个的权重

9、svd feature

10、特征组合后,(1)非常稀疏,(2) C^{_{n}^{2}},特征数量急剧膨胀,是o(n^{2}),,带来的问题:内存需求变大,样本量太少导致不足模型不准

解决方案:FM,FFM

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章