推薦算法(三)基於標籤的算法--CTR預估

1、在工業界,數據量非常大,如果用pandas讀入,雖然方便後續數據操作,但佔用內存過多。工業界一般存儲稀疏數據用LIBSVM。

2、在進行建模前,先進行探索,刪除髒數據,分析下各個特徵的初步效果;對不均衡的樣本,下采樣,然後有多個分類器,通過bagging合併。

3、在排序ranking場景下,評估指標經常是AUC

4 時間預處理:映射爲不同的時間段

5、如果某一列的類別太多,(1)先做聚類;(2)離散化

6、每個值出現的頻次比較重要,對於頻次較低,觀察低頻數值,(1)離羣點,(2)作爲rule ,(3)把低頻的合在一起作爲一列

7、大規模數據藉助spark,MLlib  and pipeline,利用pyspark

8、模型融合,每個模型預測的結果作爲輸入,訓練一個線性的model,得到每個的權重

9、svd feature

10、特徵組合後,(1)非常稀疏,(2) C^{_{n}^{2}},特徵數量急劇膨脹,是o(n^{2}),,帶來的問題:內存需求變大,樣本量太少導致不足模型不準

解決方案:FM,FFM

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章