正則化、嶺迴歸與LASSO迴歸（套索迴歸）

首先補充一些鋪墊知識

無偏估計

百度百科：無偏估計是用樣本統計量來估計總體參數時的一種無偏推斷。估計量的數學期望等於被估計參數的真實值，則稱此估計量爲被估計參數的無偏估計，即具有無偏性，是一種用於評價估計量優良性的準則。

簡單來說，就是對總體樣本進行多次採樣，求出每次採樣的樣本均值，根據中心極限定理，這些多次取樣的樣本均值應該是服從正態分佈的，求出這個分佈的期望，這個期望等於總體樣本的期望，那麼這個估計就具有無偏性，就是一種無偏估計，這恰恰是構建迴歸算法（可以看這篇）的假設函數的基本思想。首先確定數據集中target的分佈，然後求出這個分佈的期望，這個期望這個數據集的無偏估計，因此令這個分佈的期望作爲假設函數，以估計真實的函數。

L2正則化

L2正則化就是在原來的損失函數的基礎上加上權重的平方和：

接下來解釋爲什麼要這樣做，正則化的目的是約束權重不能過多或過大，這樣會使模型變的複雜，從而有可能導致過擬合。因此我們就在末尾加上了一個只與權重有關的多項式，這樣再優化損失函數時，要原來的損失函數和權重都最小，相當於在最小化損失函數的同時加了一個條件，在滿足這個條件下，對損失函數進行優化。

爲什麼要加平方和，而不是絕對值的和或者說三次方、四次方、n次方和？

（這張圖來自這裏）

從圖中可以看出來，假設權重W是二維的，那麼L2正則項可以畫出圖中紅色的圓，藍色的圓是未加正則項的損失函數，假設中間的黑點Wlin是未加正則項時的最優點，而現在優化損失函數的時候只能在紅色圓的邊界上面或者紅色圓的內部運動，在原內部運動顯然是不可能取到最優點的，因此在邊界上運動，運動方向是圓的切線方向，也就是法線的垂直方向，途中綠色是切線方向，紅色是法線方向，藍色是未加正則項的損失函數的梯度反方向。當藍色線與紅色線方向重合時，損失函數達到最優不再下降。此時：

這就是加了正則項後的損失函數求導的梯度了，所以他的原函數就是：

L1正則化

L1正則化的式子是這樣的，原損失函數加上一個一階範數：

這樣根據上面L2正則化的推導思路就可以得到這樣的一張圖

（這張圖同樣來自這裏）

L1正則化推導思路與L2類似。

L1，L2正則的區別與作用

L2正則化和L1正則化都可以減少過擬合，而L2正則化更多的作用是使參數大小更加均衡，防止出現某一個特徵權重過大的情況，也就是說防止某個特徵的權重過大、模型對某個特徵過分敏感，這樣即使數據集中有噪聲，模型也不會對噪聲特別敏感而發生過擬合。

L1正則化則可以使一些權重等於0，從而實現自動選擇特徵的效果，從而化簡模型，防止模型過於複雜而過擬合。

爲什麼L1可以使部分權重等於0，而L2不可以呢？

看這兩張圖就可以理解了，L1正則化在優化的時候很容易取到角點，使一部分權重爲0，從而實現自動選擇特徵，L2正則化中，正則項表示出來的圖像是光滑的圓形，所以很難取到座標軸上的點，很使部分特徵權重爲0。

嶺迴歸

嶺迴歸是一種改良版的最小二乘法，相當於給最小二乘法加上了一個L2正則項。這種方式會損失模型的精度和無偏性，但是對病態數據擬合比普通的線性迴歸要強。接下來我對這個結論做一些解釋：

1. 爲什麼損失精度和無偏性？

根據前面我介紹的無偏估計的概念，普通的線性迴歸是一種無偏估計，也就是這種估計的期望值是十分近似於總體數據的真實期望值的，而在這種估計方法之上加一個正則項，勢必會改變估計的期望值，因此這種估計就變成了有偏估計。正則化的作用是防止過擬合（可以看這篇），相當於對目標函數的優化加上了一個約束條件，因此這樣的優化效果一定會小於等於不加正則項的優惠效果，因此會損失精度。

2. 爲什麼對病態數據的擬合比普通的線性迴歸要強？

我對病態數據的理解就是，噪聲過大、數據分佈左偏或有偏、有較多離羣值等等，這樣的數據用普通的線性迴歸學習在學習樣本的特徵時也會過多的學習數據的噪聲特徵和離羣特徵，這樣會導致模型過擬合，使模型的泛化能力（就是模型推廣到不同數據集的表現）變差，因此可以加一些“約束”，也就是正則項，主動放棄一些模型在訓練集上的精度，而使模型的泛化能力提升。

普通線性迴歸的目標函數（看這裏）是：

嶺迴歸的目標函數是：

另外從最小二乘的角度來看，通過引入二範正則項，使得滿秩，強制矩陣可逆。

單位矩陣I的主對角線爲1，像山嶺一樣，這就是嶺迴歸的由來。

LASSO迴歸

Lasso迴歸和嶺迴歸十分相似，不過是採用一範數來約束，就是加上了一個L1正則項。

Lasso迴歸的目標函數是：

求導之後是MSE加上一個符號函數。

總結：嶺迴歸很難剔除變量，而LASSO迴歸模型，將懲罰項由L2範數變爲L1範數，可以將一些不重要的迴歸係數縮減爲0，達到剔除變量的目的。

注：如有錯誤請指出。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

正則化、嶺迴歸與LASSO迴歸（套索迴歸）

無偏估計

L2正則化

L1正則化

L1，L2正則的區別與作用

嶺迴歸

LASSO迴歸

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

【Stanford】Deep Learning-CS224N Lecture 1-2

並查集入門題集

C/C++ 取整函數

廣義線性模型總結（GLM）

Neural networks and deep learning C1總結（一）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結