顯式特徵組合
常用方法:對特徵進行離散化然後進行叉乘,採用笛卡兒積、內積等方式
針對不同特徵類型,有不同的處理方式
-
數值特徵
無監督離散化:根據簡單統計量進行等頻、等寬、分位點等劃分區間
有監督離散化:IR方法、Entropy-basedDiscretization
-
有序特徵(ordinal feature) CCF畫像比賽有位同學採用二值化
編碼表示值之間的順序關係,比如衛生條件這一特徵,分別有差、中、好三檔,那麼可以分爲編碼爲(1,0,0),(1,1,0),(1,1,1)
-
無序特徵(categorical feature)
one hot
離散特徵經過One後,每個分類型變量的各個值在模型中都可以看作獨立變量,增強擬合能力。一般的,當模型加正則化的情況下約束模型自由度,我們認爲One更好
dummy encoding
離散化爲啞變量,這一維信息嵌入模型Bias起到簡化邏輯迴歸作用,降低模型過擬合風險
hash trick(轉化爲固定長度的hash variable) --比賽羣有人提出了
利用feature hash技術將高維稀疏特徵映射到固定維度空間
半顯示特徵組合
區別於顯式特徵組合具有明確的組合解釋信息,半顯式特徵組合通常的做法是基於樹方法形成特徵劃分並給出相應組合路徑。
作用將樣本的連續值輸入ensemble tree,分別在每棵決策樹沿着特定分支路徑最終落入某個葉子節點得到其編號,本質上是這些特徵在特定取值區間內的組合。採用GDBT或者RF實現,每一輪迭代產生一顆新樹,最終通過One-hot encoding轉換爲binary vector 。GBDT + LR/FM
實驗發現:單純採用xgboost自動學到的高階組合特徵輸入LR模型並不能完全替代人工特徵工程作用,可以將原始特徵以及一些人工的高階特徵的交叉特徵同xgboost學習到特徵組合一起放入後續模型,獲得更好的效果。