這裏僅貼出相關鏈接,有空時再詳細補充。
怎麼判斷欠擬合和過擬合:
Ref:學習曲線——判斷欠擬合還是過擬合
過擬合的處理方法:
從樣本方面考慮:
- 縱向上增加樣本數量
- 橫向上進行特徵選擇/降維
- 橫縱都有:歸一化:
- (1)MinMaxScaler:對列數據做 (x-min)/(max-min) 變換
- (2)MaxAbsScaler:對列數據做2(x-min)/(max-min)-1 變換
- (3)StandardScaler:基於特徵矩陣的列,將屬性值轉換至服從正態分佈
- (4)Normalizer:基於矩陣的行,將樣本向量轉換爲單位向量
從模型方面考慮:
- 正則化:限制權重參數 LR,FM
-
Early stopping:限制迭代次數 樹模型
-
設置樹深:限制樹深 樹模型
-
Shrinkage: 減小學習率(在xgb中應用) 限制學習率 樹模型
- dropout:限制神經網絡內部的節點個數 神經網絡
Ref:機器學習-數據歸一化方法;機器學習中防止過擬合的處理方法
縱向-橫向-橫縱歸一化--正則 化 --》stopping--》dropout