一、過擬合(Overfitting)
1. 概念:
If you can fit the training data,but largeerror on testing data,then you probably have large variance.
過擬合是指模型在訓練集上的表現很好,但在測試集和新數據上的表現很差。
2. 特徵:
Small Bias; Large Variance;Complex Model.
3.一般解決思路:
(1)More Data: 使用更多的訓練數據是解決過擬合問題最有效的手段,因爲更多的樣本能夠讓模型學習到更多有效的特徵,減少噪聲的影響。
(2)Regularizationg: 給模型參數添加一定的正則約束。
(3)降低模型複雜度: 適當降低模型複雜度可以避免模型擬合過多的採樣噪聲。
(4)使用集成學習方法: 把多個模型集成在一起,降低單一模型的過擬合風險,如Bagging。
二、欠擬合(Underfitting)
1. 概念:
If your model cannot even fit the training examples,then you have large bias.
欠擬合是指訓練的模型不能很好地擬合數據關係。
2. 特徵:
Large Bias; Small Variance; Simple Model.
3. 一般解決思路:
(1) Redesign Model: 重新設計模型,增加模型的複雜度。簡單模型的學習能力較差,增加模型複雜度可以使模型有更強的擬合能力。
例如,在線性模型中添加高次項,在神經網絡模型中增加網絡層數或神經元個數等。
(2)Add more features as input: 當特徵不足或現有特徵與樣本標籤的相關性不強時,模型容易出現欠擬合。
參考文獻:學習總結參考李老師公開課。