L1L2正則化

總結:

爲什麼正則化可以降低過擬合?

最佳解釋是:

從MAP最大後驗概率,推出,正則化項,等價於,P(θ) 先驗概率。

可類比與,費舍爾經驗統計派是不完美的,忽視了後驗概率公式中,先驗概率的重大影響,貝葉斯纔是最佳。

最佳模型實質是推導數據的生成機制。也就是數據的原始分佈,不以人的意志爲轉移的真理,真實世界的公式,比如e=mc²。背後實質是邏輯和概率,概率也可進一步定義爲包含不確定性的邏輯。

從數據出發推導生成方式,實質是猜測,方程形式和參數。

(題外話,任何方程都可以泰勒展開用多項式模擬,說明我們這個世界本質是多項式?)

一個模型可能有很多變量,但我們總可以用兩個變量結合成一個新變量(或模型),再去跟別的變量組合,所以原子問題是,兩個變量直接的關係。所以,我們限制我們的研究對象爲,兩個特徵,那麼生成機制,數據分佈,對應的就是聯合概率分佈P(X,Y)。再把X,Y,改個名字,x,θ。這不就是說,我們所想推導的模型,實質是數據與參數的聯合分佈?(一種感覺,更爲詳細的不知道怎麼解釋)

所以MAP最大後驗概率,以概率來倒推是最完美的。公式P(θ|x)=P(x|θ)*P(θ)/P(x)。

求解的是當前的樣本分佈的情況下,對參數分佈的支持力度P(θ|x),尋找的是P(θ|x)的最大值。因爲x已知,帶入方程式的是具體的x的值,所以得到的P(θ|x)是關於θ的函數。

《統計機器學習》中說的經驗風險,也就是以樣本數據倒推方程參數,實質是隻完成了MAP最大後驗概率的前半部分的,P(x|θ)。

但是我最後疑惑的是,爲什麼正則化項進到機器學習方法裏就是+λ*範數,而MAP裏是直接乘P(θ)。一個加一個乘。

看了很多文章還覺還是差那麼些意思,頭大。到底差在哪呢。

https://blog.csdn.net/u011508640/article/details/72815981

 

 

範數對於數學的意義?1範數、2範數、無窮範數該怎麼用? - 自由之畔的回答 - 知乎 https://www.zhihu.com/question/21868680/answer/389440726

最佳答案!

 

要學習的鏈接:

https://zhuanlan.zhihu.com/p/35356992

https://zhuanlan.zhihu.com/p/29360425

 

看了沒懂,還需要再看:

 

機器學習中的範數規則化之(一)L0、L1與L2範數

https://blog.csdn.net/bitcarmanlee/article/details/51932055

 

機器學習中的範數規則化之(一)L0、L1與L2範數

https://blog.csdn.net/zouxy09/article/details/24971995

發佈了17 篇原創文章 · 獲贊 5 · 訪問量 4843
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章