L1 L2 正則化

L1 L2 正則化是什麼

ℓ1 -norm和 ℓ2-norm，中文稱作 L1正則化和 L2正則化，或者 L1範數和 L2範數。
L1正則化和L2正則化可以看做是損失函數的懲罰項。
所謂的 “懲罰” 是指對損失函數中的某些參數做一些限制。
對於線性迴歸模型，使用L1正則化的模型建叫做Lasso迴歸，使用L2正則化的模型叫做Ridge迴歸（嶺迴歸）。

如圖，加號後面的分別是 L1正則化項和 L2正則化項

一般迴歸分析中迴歸 w表示特徵的係數，從上式可以看到正則化項是對係數做了處理（限制）。

L1正則化和L2正則化的說明如下：

L1正則化是指權值向量 $w$ 中各個元素的絕對值之和，通常表示爲 $| | w | |_{1}$
L2正則化是指權值向量 $w$ 中各個元素的平方和然後再求平方根（可以看到Ridge迴歸的L2正則化項有平方符號），通常表示爲 $| | w | |_{2}$

一般都會在正則化項之前添加一個係數，Python中用 $α$ 表示，一些文章也用 $λ$ 表示。這個係數需要用戶指定。

我在很多資料中也看到這句話： L1正則化產生稀疏的權值, L2正則化產生平滑的權值。

有什麼用呢

L1正則化可以產生稀疏權值矩陣，即產生一個稀疏模型，可以用於特徵選擇
L2正則化可以防止模型過擬合（overfitting）；一定程度上，L1也可以防止過擬合

針對上面的說到的作用 L1: 產生一個稀疏模型，可以用於特徵選擇，下面來解釋一下：

爲什麼要生成一個稀疏矩陣？
爲什麼L1正則化可以產生稀疏矩陣（L1是怎麼讓係數等於0的）

1、稀疏模型與特徵選擇

上面提到L1正則化有助於生成一個稀疏權值矩陣，進而可以用於特徵選擇。爲什麼要生成一個稀疏矩陣？

稀疏矩陣指的是很多元素爲0，只有少數元素是非零值的矩陣，即得到的線性迴歸模型的大部分系數都是0。
通常機器學習中特徵數量很多，例如文本處理時，如果將一個詞組（term）作爲一個特徵，那麼特徵數量會達到上萬個（bigram）。在預測或分類時，那麼多特徵顯然難以選擇，但是如果代入這些特徵得到的模型是一個稀疏模型，表示只有少數特徵對這個模型有貢獻，絕大部分特徵是沒有貢獻的，或者貢獻微小（因爲它們前面的係數是0或者是很小的值，即使去掉對模型也沒有什麼影響），此時我們就可以只關注係數是非零值的特徵。這就是稀疏模型與特徵選擇的關係。

從另一個角度來講，爲防止過擬合，我們考慮 $W = (w_{0}, w_{1}, w_{2}, w_{3}, . . . w_{N})$ 中的項的個數最小化。
一句話，向量中0元素，對應的x樣本中的項我們是不需要考慮的，可以砍掉。因爲 $0 * x_{i}$ 沒有啥意義，說明 $x_{i}$ 項沒有任何權重。這也是正則項防止過擬合的一個原因。這裏順便解釋一個L2比較好的原因：

L2範數是指向量各元素的平方和然後求平方根。我們讓L2範數的正則項 $| | W | |_{2}$ 最小，可以使得W的每個元素都很小，都接近於0，但與L1範數不同，它不會讓它等於0，而是接近於0，這裏是有很大的區別的哦；所以大家比起1範數，更鐘愛2範數。

2、L1正則化可以產生稀疏模型

L1 產生稀疏權值，L2 產生平滑的權值

假設有如下帶L1正則化的損失函數：

$J = J_{0} + α \sum_{w} | w |$

其中 $J_{0}$ 是原始的損失函數，加號後面的一項是L1正則化項， $α$ 是正則化係數。注意到L1正則化是權值的絕對值之和， $J$ 是帶有絕對值符號的函數，因此 $J$ 是不完全可微的。
機器學習的任務就是要通過一些方法（比如梯度下降）求出損失函數的最小值。
當我們在原始損失函數 $J_{0}$ 後添加L1正則化項時，相當於對 $J_{0}$ 做了一個約束。
令: $L = α \sum_{w} | w |$
則： $J = J_{0} + L$

圖片中 L2 中應該每個 $w_{i}^{2}$ 前面都是乘以 $1 / 2$
假設學習率爲 $η$ ， L1的權值更新公式爲
$w_i = w_i - η * 1，也就是說權值每次更新都固定減少一個特定的值(比如0.5)，那麼經過若干次迭代之後，權值就有可能減少到0。

L2的權值更新公式爲
$w_i = w_i - η * w_i = w_i - 0.5 * w_i，也就是說權值每次都等於上一次的1/2，那麼，雖然權值不斷變小，但是因爲每次都等於上一次的一半，所以很快會收斂到較小的值但不爲0。

L1能產生等於0的權值，即能夠剔除某些特徵在模型中的作用（特徵選擇），即產生稀疏的效果。
L2可以得迅速得到比較小的權值，但是難以收斂到0，所以產生的不是稀疏而是平滑的效果。

還有一種解釋是從幾何空間解釋，不過我還沒去搜索資料去理解，還看不懂。。。

如上圖。

L2正則化可以防止模型過擬合（overfitting）

其實按照上面所說已經差不多可以理解爲什麼可以防止過擬合了，就是在擬合過程中通常都傾向於讓權值儘可能小，最後構建一個所有參數都比較小的模型。因爲一般認爲參數值小的模型比較簡單，能適應不同的數據集，一定程度上避免了過擬合現象

可以設想一下對於一個線性迴歸方程，若參數很大，那麼只要數據偏移一點點，就會對結果造成很大的影響；但如果參數足夠小，數據偏移得多一點也不會對結果造成什麼影響，專業一點的說法是『抗擾動能力強』。

設 $λ$ 就是正則化參數，學習率Learning rate爲 $α$ ，對於參數：

$J (θ) =$ $\frac{1}{2 m} *$ $\sum_{i = 1}^{m}$ $(h_{θ} (x^{(i)}) - y^{(i)})$

在梯度下降中，用於迭代計算參數 $θ$ 的迭代式爲：

$θ_{j} := θ_{j} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}$

而添加正則化後，

$θ_{j} := θ_{j} * (1 - α \frac{1}{m}) - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}$

從上式可以看到，與未添加L2正則化的迭代公式相比，每一次迭代， $θ_{j}$ 都要先乘以一個小於1的因子，從而使得θjθj不斷減小，因此總得來看， $θ$ 是不斷減小的。

參考資料：
爲什麼L1稀疏，L2平滑？
https://www.zhihu.com/question/20924039
https://blog.csdn.net/jinping_shi/article/details/52433975

L1 L2 正則化是什麼

有什麼用呢

1、稀疏模型與特徵選擇

2、L1正則化可以產生稀疏模型

L1 產生稀疏權值，L2 產生平滑的權值

L2正則化可以防止模型過擬合（overfitting）

神經網絡 ——一個很好的解釋以及簡單實現 Implementing a Neural Network from Scratch in Python – An Introduction

python下安裝eemd

EMD經驗模態分解——分析時間序列

TICC- TimeSeries Analyze

歡迎使用CSDN-markdown編輯器

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

L1 L2 正則化

L1 L2 正則化 是什麼

有什麼用呢

1、稀疏模型與特徵選擇

2、L1正則化可以產生稀疏模型

L1 產生稀疏權值，L2 產生平滑的權值

L2正則化可以防止模型過擬合（overfitting）

L1 L2 正則化是什麼