本文主要講L1、L2正則，首先從直觀上展示L1、L2正則，接着展示其梯度的效果。

擬合過程中通常都傾向於讓權值儘可能小，即構造一個所有參數都比較小的模型。一般認爲參數值小的模型比較簡單，能在一定程度上避免過擬合現象，抗擾動能力強，因爲若參數很大，只要數據偏移一點點，就會對結果造成很大的影響；而如果參數比較小，數據偏移一點不會對結果造成什麼很大的影響。

L1、L2正則的幾何效果

直觀上通過經驗損失項與正則項的等高線來展示L1、L2正則的差異，如下圖

彩色線表示經驗損失項的等高線，黑線表示正則項的等高線，等高線的值越小，圈的範圍越小；等高線的法線方向是梯度方向，經驗損失項與正則項的等高線的交點是參數的取值，（按照梯度下降法移動參數）最優點發生在兩個等高線最後一次相交的位置（即總的梯度爲0的位置，此時損失項和正則項的梯度相反但大小相等，雙方拉鋸形成平衡），可以看出L1正則的等高線更容易與經驗損失項的等高線相交在軸上，也即更容易得到稀疏的解，而L2正則更容易得到小數值的解，即最大的參數值更小（假設正則等高線都是1，那麼L2正則下交點的w2比L1正則下交點的w2小；更確切的說，由於L2正則是平方，而L1正則是1次方，L2正則對大數值的懲罰更大）

L1、L2正則的梯度效果

從L1、L2正則的梯度可以看出，根據梯度下降法，

L1正則下的參數更新 $\theta_i \rightarrow \theta_i - \eta sign(\theta_i)$ ，參數有可能爲0；

L2正則下的參數更新 $\theta_i \rightarrow \theta_i - \eta \theta_i = (1-\eta)\theta_i$ ，學習率 $\eta$ 一般小於1，所以參數每次更新都會乘以一個小數，只能不斷接近0而不爲0；

所以一般來說，L1正則的解更容易稀疏，而L2正則的解變小的速度更快，更容易形成小數值的解，即抗過擬合能力更強些。

（雖然實際上參數更新是經驗損失項的梯度與正則梯度的共同作用，L2正則下的有些參數也是能變成0的，只是一般來說其解的稀疏度不如L1正則。）

L1、L2正則的效果

L1、L2正則的幾何效果

L1、L2正則的梯度效果

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

.NET週刊【5月第2期 2024-05-12】

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（一）部署K8s

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（三）數據卷掛載NFS（網絡文件系統）

神經網絡基礎--循環神經網絡RNN

神經網絡基礎3：優化方法

神經網絡基礎--指數加權移動平均ewma

Lagrange與KKT的簡易解釋

SVM基礎--超平面

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結