1.改進模型性能:
1.1獲取更多訓練數據(解決高方差:畫出學習曲線,判斷是否是高方差問題)
1.2改變特徵數量
選用更少的特徵(防止過擬合) (解決高方差)
選用更多的特徵(解決高偏差)
增加多項式特徵(x1的平方,x2的平方,x1*x2等) (解決高偏差)
1.3改變正則化參數
減小lambda (解決高偏差)
增加lambda(解決高方差)
2.模型評估
2.1評估假設(在測試集上)
2.2模型的選擇
通過訓練集的學習,將驗證集的數據帶入假設函數中選擇誤差最小的模型,再在測試集上估計泛化誤差。
2.2診斷偏差和方差
關於偏差和方差的問題,前面已經敘述過https://mp.csdn.net/console/editor/html/105685337,在這裏是一樣的。
判斷方法:繪製學習曲線
3.誤差分析
3.1簡單粗暴的開發一個項目並進行評估
3.2畫出學習曲線,判斷算法存在的問題,
3.3在交叉驗證集上做誤差分析,查看分類錯誤的案例有什麼共同的特徵和規律
4.樣本不均衡分類的誤差評估
真實值 | |||
預測值 | 0 | 1 | |
0 | TN | FN | |
1 | FP | TP |
精確率precision = TP/(TP+FP)所有預測爲正例裏有多少是真正例
召回率recall = TP/(TP+FN)所有真實爲正例預測有多少爲正例
二者越高越好,但現實中二者並不是正相關的關係,所以可以用f1-score來平衡一下二者