KL散度 L2正則 粗略理解

信息熵可以表達數據的信息量大小;

相對熵,又被稱爲KL散度或信息散度,是兩個概率分佈間差異的非對稱性度量

在信息論中,相對熵等價於兩個概率分佈的信息熵的差值,若其中一個概率分佈爲真實分佈,另一個爲理論(擬合)分佈,則此時相對熵等於交叉熵與真實分佈的信息熵之差,表示使用理論分佈擬合真實分佈時產生的信息損耗

因此該公式的字面上含義就是真實事件的信息熵與理論擬合的事件的香農信息量與真實事件的概率的乘積的差的累加。

假設理論擬合出來的事件概率分佈跟真實的一模一樣,那麼這就等於真實事件的信息熵。

假設擬合的不是特別好,那麼這會比真實事件的信息熵大。

也就是在理論擬合出來的事件概率分佈跟真實的一模一樣的時候,相對熵等於0。而擬合出來不太一樣的時候,相對熵大於0。這個性質很關鍵,因爲它正是深度學習梯度下降法需要的特性。假設神經網絡擬合完美了,那麼它就不再梯度下降,而不完美則因爲它大於0而繼續下降。

這也就是說,相對熵的大小並不跟距離有一一對應的關係。

那爲什麼現在還是很多人用相對熵衍生出來的交叉熵作爲損失函數來訓練神經網絡而不直接用距離相關的均方差呢?

 

因此雖然相對熵的距離特性不是特別好,但總歸好過直接梯度消失玩不下去(用了均方差損失函數之後求導結果包含y(y−1) 這在y接近於0或者1的時候都趨於0,會導致梯度消失,網絡訓練不下去),因此很多用sigmoid作爲激活函數的神經網絡還是選擇了用相對熵衍生出來的交叉熵作爲損失函數。

當然如果你選用的不是sigmoid激活函數,則不需要考慮這些

在機器學習中,無論是分類還是迴歸,都可能存在由於特徵過多而導致的過擬合問題。當然解決的辦法有:(1)減少特徵,留取最重要的特徵。(2)懲罰不重要的特徵的權重。

但是通常情況下,我們不知道應該懲罰哪些特徵的權重取值。通過正則化方法可以防止過擬合,提高泛化能力。

L2正則化方法

對於之前梯度下降講到的損失函數來說,在代價函數後面加上一個正則化項,得到

https://img-blog.csdn.net/20150529170806561

從某種意義上說,更小的權值就意味着模型的複雜度更低,對數據的擬合更好。

  1. 當權值係數更大時,會過擬合。

(2)在PRML中,正則化就是通過對模型的參數設定一個先驗來防止過擬合。

 

在上圖中,如果不加正則化項,那麼最優參數對應的等高線離中心點的距離可能會更近,加入正則化項後使得訓練出的參數對應的等高線離中心點的距離不會太近,也不會太遠。從而避免了過擬合。

L1正則化和L2正則化,不同的是L1正則化得到的權重w是稀疏的

神經網絡中的正則化是矩陣L2正則化(正則項是權重矩陣各元素的平方之和):

L2正則化又被稱爲“權重衰減”weight decay,因爲是在原有的權重上乘以一個小於1 的係數。

正是因爲權重衰減導致w矩陣中很多項約等於0,致使深層神經網絡中很多節點的影響變小了,相當於簡化了網絡結構,這就是爲什麼正則化可以減少過擬合(緩解高方差)的原因。

還有一個直觀的解釋:通過正則化設置lambda,使得w減小,導致z也很靠近0,處在激活函數的線性範圍(非飽和)內,每一層都約爲線性,這樣這個神經網絡的線性成分大大增加,減少了過擬合。

 

 

 

https://zhuanlan.zhihu.com/p/35356992

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章