過擬合的通俗理解以及解決辦法

好比你想學習追妹子。
先找你表妹問喜歡什麼，表妹說她喜歡乾淨帥氣的男生，還說她喜歡周杰倫，喜歡火鍋，喜歡酸菜魚，合計一百條規矩。你規規矩矩地按照要求學習，終於符合表妹的一切要求，0 Error，訓練完成，超級自信準備出去試試追個妹子。
可是換了個妹子，發現學到的似乎沒想象中有用。第二個妹子只要你乾淨帥氣。後面的九十八條她都不care，她甚至討厭喫火鍋，那後面98條只會增加誤差。這就過擬合了。

怎麼防止過擬合呢？應該用cross validation，交叉比對。
解釋起來就是，你在你表妹那兒學到的東西，在你表姐那兒測試一下對不對。在你表姐那兒學到的，在你二姐那測試一下。來來回回用不同的測試對象和訓練對象做交叉比對。這樣學到規律就不會過擬合啦~

評論裏有小夥伴提到加Regularization可以解決overfit，這裏也形象地說一下。還是在學習追妹子。但是我也有男人的尊嚴！有底線！不能妹子說啥就是啥！今天我的底線是，不能無限量增加要學的規矩的數量！女人不能慣着！所以可以引入Lasso，對規矩的數量進行一個penalize。通俗說就是，妹子你讓我學三條規矩我就忍了，讓我學一百條規矩大爺就不幹了。這個Regularization可以有不同的形式，Lasso是一種。所以可以通過引入Regularization增加信息，幫助尋找到最優解。
=================================================================================================================================

其實不完全是噪聲和假規律會造成過擬合。
(1)打個形象的比方，給一羣天鵝讓機器來學習天鵝的特徵，經過訓練後，知道了天鵝是有翅膀的，天鵝的嘴巴是長長的彎曲的，天鵝的脖子是長長的有點曲度，天鵝的整個體型像一個“2”且略大於鴨子.這時候你的機器已經基本能區別天鵝和其他動物了。
(2)然後，很不巧你的天鵝全是白色的，於是機器經過學習後，會認爲天鵝的羽毛都是白的，以後看到羽毛是黑的天鵝就會認爲那不是天鵝.
(3)好，來分析一下上面這個例子：(1)中的規律都是對的，所有的天鵝都有的特徵，是全局特徵；然而，(2)中的規律：天鵝的羽毛是白的.這實際上並不是所有天鵝都有的特徵，只是局部樣本的特徵。機器在學習全局特徵的同時，又學習了局部特徵，這才導致了不能識別黑天鵝的情況.

參考網站：

http://blog.csdn.net/cc18868876837/article/details/61414327

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

過擬合的通俗理解以及解決辦法

過擬合的通俗理解以及解決辦法

杭州的 IT 崩盤了麼？

開源高性能結構化日誌模塊NanoLog

Python 潮流週刊#55：分享 9 個高質量的技術類信息源！

WinForm應用實戰開發指南 - 表格數據錄入問題解析

Azure Virtual Network (22) 多訂閱使用Azure DNS解析問題 Windows Azure Platform 系列文章目錄

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

圖像復原方法綜述（掃盲）

彩色圖像的matlab中表示與用法

驗證GPU是否安裝成功時候，如果copyfile有問題刪除copyfile

過擬合的通俗理解以及解決辦法

1080顯卡與tensorflow配置

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結