1、在工業界,數據量非常大,如果用pandas讀入,雖然方便後續數據操作,但佔用內存過多。工業界一般存儲稀疏數據用LIBSVM。
2、在進行建模前,先進行探索,刪除髒數據,分析下各個特徵的初步效果;對不均衡的樣本,下采樣,然後有多個分類器,通過bagging合併。
3、在排序ranking場景下,評估指標經常是AUC
4 時間預處理:映射爲不同的時間段
5、如果某一列的類別太多,(1)先做聚類;(2)離散化
6、每個值出現的頻次比較重要,對於頻次較低,觀察低頻數值,(1)離羣點,(2)作爲rule ,(3)把低頻的合在一起作爲一列
7、大規模數據藉助spark,MLlib and pipeline,利用pyspark
8、模型融合,每個模型預測的結果作爲輸入,訓練一個線性的model,得到每個的權重
9、svd feature
10、特徵組合後,(1)非常稀疏,(2) ,特徵數量急劇膨脹,是o(),,帶來的問題:內存需求變大,樣本量太少導致不足模型不準
解決方案:FM,FFM