L1L2正則化

L1L2正則化

原創

nn0821

2020-02-22 15:35

總結：

爲什麼正則化可以降低過擬合？

最佳解釋是：

從MAP最大後驗概率，推出，正則化項，等價於，P(θ) 先驗概率。

可類比與，費舍爾經驗統計派是不完美的，忽視了後驗概率公式中，先驗概率的重大影響，貝葉斯纔是最佳。

最佳模型實質是推導數據的生成機制。也就是數據的原始分佈，不以人的意志爲轉移的真理，真實世界的公式，比如e=mc²。背後實質是邏輯和概率，概率也可進一步定義爲包含不確定性的邏輯。

從數據出發推導生成方式，實質是猜測，方程形式和參數。

（題外話，任何方程都可以泰勒展開用多項式模擬，說明我們這個世界本質是多項式？）

一個模型可能有很多變量，但我們總可以用兩個變量結合成一個新變量（或模型），再去跟別的變量組合，所以原子問題是，兩個變量直接的關係。所以，我們限制我們的研究對象爲，兩個特徵，那麼生成機制，數據分佈，對應的就是聯合概率分佈P(X，Y)。再把X，Y，改個名字，x，θ。這不就是說，我們所想推導的模型，實質是數據與參數的聯合分佈？（一種感覺，更爲詳細的不知道怎麼解釋）

所以MAP最大後驗概率，以概率來倒推是最完美的。公式P(θ|x)=P(x|θ)*P(θ)/P(x)。

求解的是當前的樣本分佈的情況下，對參數分佈的支持力度P(θ|x)，尋找的是P(θ|x)的最大值。因爲x已知，帶入方程式的是具體的x的值，所以得到的P(θ|x)是關於θ的函數。

《統計機器學習》中說的經驗風險，也就是以樣本數據倒推方程參數，實質是隻完成了MAP最大後驗概率的前半部分的，P(x|θ)。

但是我最後疑惑的是，爲什麼正則化項進到機器學習方法裏就是+λ*範數，而MAP裏是直接乘P(θ)。一個加一個乘。

看了很多文章還覺還是差那麼些意思，頭大。到底差在哪呢。

https://blog.csdn.net/u011508640/article/details/72815981

範數對於數學的意義？1範數、2範數、無窮範數該怎麼用？ - 自由之畔的回答 - 知乎 https://www.zhihu.com/question/21868680/answer/389440726

最佳答案！

要學習的鏈接：

https://zhuanlan.zhihu.com/p/35356992

https://zhuanlan.zhihu.com/p/29360425

看了沒懂，還需要再看：