離散特徵:
-
無序離散特徵:one-hot encoding,比如所屬國家、城市
-
無序離散特徵:one-hot encoding,比如所屬國家,城市。(1)如果one-hot之後unique值不多可以不用做Embedding, (2)但是如果該特徵unique值過多,比如所屬國家、城市,onehot產生的矩陣過寬,這種情況下,我們的通常做法就是將其轉換爲embedding。
-
也可以先做LabelEncoder將特徵的不同取值區分開,然後再embedding
-
-
有序離散特徵:label encoding,比如年齡
連續特徵:
- 歸一化:去除不同維度數據的量綱以及量綱單位
- 標準化: 標準化成正態分佈之後,可以更加容易地得出最優參數目標函數的最小值,從而達到加速收斂的效果。
區別:兩者都可以對特徵做幅度縮放,兩者的效果差不多,選擇其中一個即可。
正則化:
- 常見的有正則項有 L1 正則 和 L2 正則 以及 Dropout
更詳細內容請參考:ML 入門:歸一化、標準化和正則化