特徵工程之連續/離散特徵的處理

離散特徵:

  • 無序離散特徵:one-hot encoding,比如所屬國家、城市

    • 無序離散特徵:one-hot encoding,比如所屬國家,城市。(1)如果one-hot之後unique值不多可以不用做Embedding, (2)但是如果該特徵unique值過多,比如所屬國家、城市,onehot產生的矩陣過寬,這種情況下,我們的通常做法就是將其轉換爲embedding。

    • 也可以先做LabelEncoder將特徵的不同取值區分開,然後再embedding

  • 有序離散特徵:label encoding,比如年齡

連續特徵:

  • 歸一化:去除不同維度數據的量綱以及量綱單位
  • 標準化: 標準化成正態分佈之後,可以更加容易地得出最優參數目標函數的最小值,從而達到加速收斂的效果。

區別:兩者都可以對特徵做幅度縮放,兩者的效果差不多,選擇其中一個即可。

正則化:

  • 常見的有正則項有 L1 正則 和 L2 正則 以及 Dropout

更詳細內容請參考:ML 入門:歸一化、標準化和正則化

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章