機器學習實踐（十三）—sklearn之欠擬合與過擬合

原創

2019-05-09 12:35

當訓練數據訓練的很好誤差也不大的時候，爲什麼在測試集上面進行預測會有較大偏差呢？

當算法在某個數據集當中出現這種情況，可能就出現了過擬合現象。

一、什麼是過擬合與欠擬合

欠擬合

一個假設在訓練數據上不能獲得更好的擬合，並且在測試數據集上也不能很好地擬合數據，此時認爲這個假設出現了欠擬合的現象。(模型過於簡單)
過擬合

一個假設在訓練數據上能夠獲得比其他假設更好的擬合，但是在測試數據集上卻不能很好地擬合數據，此時認爲這個假設出現了過擬合的現象。(模型過於複雜)

二、原因以及解決辦法

原因
- 欠擬合原因：
  - 學習到數據的特徵過少
  - 模型複雜度較低
  - 正則化係數過大
- 過擬合原因：
  - 訓練數據過少
  - 原始特徵過多
  - 模型過於複雜
  - 正則化係數過小
解決辦法

幾種降低過擬合和欠擬合風險的方法

三、正則化

什麼是正則化

在學習的時候，數據提供的特徵有些影響模型複雜度或者這個特徵的數據點異常較多，所以算法在學習的時候儘量減少這個特徵的影響（甚至刪除某個特徵的影響），這就是正則化

注：調整時候，算法並不知道某個特徵影響，而是去調整參數得出優化的結果
正則化類別
- L2 正則化
  - 作用：可以使得其中一些W的都很小，都接近於 0，削弱某個特徵的影響
  - 優點：越小的參數說明模型越簡單，越簡單的模型則越不容易產生過擬合現象
  - Ridge迴歸(嶺迴歸)
- L1 正則化
  - 作用：可以使得其中一些W的值直接爲 0，刪除這個特徵的影響
  - LASSO迴歸(稀疏)
原理
- 線性迴歸的損失函數用最小二乘法，等價於當預測值與真實值的誤差滿足正態分佈時的極大似然估計；
- 嶺迴歸的損失函數，是最小二乘法+L2範數，等價於當預測值與真實值的誤差滿足正態分佈，且權重值也滿足正態分佈（先驗分佈）時的最大後驗估計；
- LASSO的損失函數，是最小二乘法+L1範數，等價於當預測值與真實值的誤差滿足正態分佈，且權重值滿足拉普拉斯分佈（先驗分佈）時的最大後驗估計

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

最全推薦系統Embedding召回算法總結

最近特別忙，工作日幾乎沒什麼時間學習。平時攢了一堆推薦相關的文章，趁週末整體學習了一下。主要是參考了網上的一篇技術文章（迄今爲止我看到的比較好的推薦Embedding總結）以及我自己的一些理解。 Embedding概念首先一些概念

2020-07-06 21:08:00

《機器學習實戰》講解

筆記：CSDN https://blog.csdn.net/c406495762/column/info/16415 視頻：https://www.bilibili.com/video/av36993857/?spm_id_from=33

2020-07-01 13:43:42

Tensorflow基礎知識學習筆記

關於張量：對Tensorflow中tensor的理解 1.Tensor tf.ones | tf.zeros tf.ones(shape,type=tf.float32,name=None) tf.zeros([2, 3],

2020-06-17 12:49:54

根據書單來製作item2vec

數據和工具 1. glove：http://nlp.stanford.edu/projects/glove/ 2. 書單數據：待審覈代碼 # -*- coding: utf-8 -*- from __future__ import

2020-06-08 14:24:33

使用nltk的movie_review做KNN，SVM，樸素貝葉斯分類

2020-02-20 20:20:26

AI學習資料鏈接

2019-05-10 05:42:22

【數據競賽】“達觀杯”文本智能處理挑戰賽6——模型優化

__盛夏光年__

2019-04-16 08:29:58

集成學習(ensemble learning)(三)

__盛夏光年__

2019-04-15 10:23:42

sklearn學習筆記(1)--線性迴歸 Linear Regression

2019-03-16 04:43:19

【NLP實戰】Task2：特徵處理

__盛夏光年__

2019-03-07 17:11:15

用Scikit-learn和TensorFlow進行機器學習（五）

__盛夏光年__

2019-02-27 16:58:49

用Scikit-learn和TensorFlow進行機器學習（四）

__盛夏光年__

2019-02-27 16:58:49

用Scikit-learn和TensorFlow進行機器學習（三）

__盛夏光年__

2019-02-14 16:54:06

kaggle入門競賽之泰坦尼克事故存活預測（xgboost方法）

__盛夏光年__

2019-01-16 14:18:20

金融貸款逾期的模型構建5——數據預處理

__盛夏光年__

2019-01-04 22:45:07

24小時熱門文章

最新文章

最新評論文章