過擬合的通俗理解以及解決辦法

過擬合的通俗理解以及解決辦法

好比你想學習追妹子。
先找你表妹問喜歡什麼,表妹說她喜歡乾淨帥氣的男生,還說她喜歡周杰倫,喜歡火鍋,喜歡酸菜魚,合計一百條規矩。你規規矩矩地按照要求學習,終於符合表妹的一切要求,0 Error,訓練完成,超級自信準備出去試試追個妹子。
可是換了個妹子,發現學到的似乎沒想象中有用。第二個妹子只要你乾淨帥氣。後面的九十八條她都不care,她甚至討厭喫火鍋,那後面98條只會增加誤差。這就過擬合了。

怎麼防止過擬合呢?應該用cross validation,交叉比對。
解釋起來就是,你在你表妹那兒學到的東西,在你表姐那兒測試一下對不對。在你表姐那兒學到的,在你二姐那測試一下。來來回回用不同的測試對象和訓練對象做交叉比對。這樣學到規律就不會過擬合啦~

評論裏有小夥伴提到加Regularization可以解決overfit,這裏也形象地說一下。還是在學習追妹子。但是我也有男人的尊嚴!有底線!不能妹子說啥就是啥!今天我的底線是,不能無限量增加要學的規矩的數量!女人不能慣着! 所以可以引入Lasso,對規矩的數量進行一個penalize。通俗說就是,妹子你讓我學三條規矩我就忍了,讓我學一百條規矩大爺就不幹了。這個Regularization可以有不同的形式,Lasso是一種。所以可以通過引入Regularization增加信息,幫助尋找到最優解。
=================================================================================================================================


其實不完全是噪聲和假規律會造成過擬合。
(1)
打個形象的比方,給一羣天鵝讓機器來學習天鵝的特徵,經過訓練後,知道了天鵝是有翅膀的,天鵝的嘴巴是長長的彎曲的,天鵝的脖子是長長的有點曲度,天鵝的整個體型像一個“2”且略大於鴨子.這時候你的機器已經基本能區別天鵝和其他動物了。
(2)然後,很不巧你的天鵝全是白色的,於是機器經過學習後,會認爲天鵝的羽毛都是白的,以後看到羽毛是黑的天鵝就會認爲那不是天鵝.
(3)好,來分析一下上面這個例子:(1)中的規律都是對的,所有的天鵝都有的特徵,是全局特徵;然而,(2)中的規律:天鵝的羽毛是白的.這實際上並不是所有天鵝都有的特徵,只是局部樣本的特徵。機器在學習全局特徵的同時,又學習了局部特徵,這才導致了不能識別黑天鵝的情況.

 參考網站:

http://blog.csdn.net/cc18868876837/article/details/61414327

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章