偏差和方差
使用同一個模型設計選取不同的訓練集,訓練得到不同的模型,使用不同模型對同一個測試集中的樣本進行預測,得到預測值,求各個預測值和真實值的差
偏差
差的期望就是偏差
方差
差的方差就是這裏的方差
判斷方法
無需單獨算偏差和方差,根據模型在訓練集、驗證集、測試集上的指標(準確率、召回率、F值等)判斷。
分2種情況說明:
- k折交叉驗證
每次選取k份中的一份作爲測試集,其他作爲訓練集,共訓練k個模型,每個模型在對應測試集上可以得到相應的準確率,分別與該任務最優化的準確率求差,得到k個差值,k個差值的期望(均值)即爲偏差,k個差值的方差即爲這裏的方差 - 無交叉驗證
一份訓練集和一份測試集,訓練只得到一個模型,模型在訓練集和測試集上分別可以得到相應的準確率,分別與該任務最優化的準確率求差,得到2個差值,2個差值的期望(均值)即爲偏差,2個差值的方差即爲這裏的方差
應對方法
方差大 | 方差小 | |
---|---|---|
偏差大 | 原因是模型複雜度不夠或訓練不充分,解決辦法:1.增加訓練時長;2.增加模型複雜度 | 原因是模型複雜度不夠,解決辦法:增加模型複雜度 |
偏差小 | 稱爲過擬合,原因是模型複雜度過高或數據量不夠,解決辦法: 1.正則化(不改變模型結構的情況下降低複雜度) ;2.使模型結構變簡單,降低複雜度;3.增大數據量; |