爲什麼會產生過擬合,有哪些方法可以預防或克服過擬合?
什麼是過擬合:
所謂過擬合(Overfit),是這樣一種現象:一個假設在訓練數據上能夠獲得比其他假設更好的擬合,但是在訓練數據外的數據集上卻不能很好的擬合數據。此時我們就叫這個假設出現了overfit的現象。
過擬合產生的原因:
出現這種現象的主要原因是訓練數據中存在噪音或者訓練數據太少。
預防或克服措施:
1、 增大數據量2、 減少feature個數(人工定義留多少個feature或者算法選取這些feature)
3、 正則化(留下所有的feature,但對於部分feature定義其parameter非常小)
4、 交叉驗證