理解JS散度(Jensen–Shannon divergence)

1.KL散度

  • 用來衡量兩個分佈之間的差異,等於一個交叉熵減去一個信息熵(交叉熵損失函數的由來)
    在這裏插入圖片描述

1.1 KL散度的性質

  • 非負性(用Jenson‘s inequality 證明)
  • 不對稱性,即KL(P||Q)≠KL(Q||P)

1.2 KL散度的問題即JS散度的引出

  • 正是由於KL散度的不對稱性問題使得在訓練過程中可能存在一些問題,爲了解決這個問題,我們在KL散度基礎上引入了JS散度

2. JS散度

  • 一般地,JS散度是對稱的,其取值是 0 到 1 之間。如果兩個分配 P,Q 離得很遠,完全沒有重疊的時候,那麼KL散度值是沒有意義的,而JS散度值是一個常數。這在學習算法中是比較致命的,這就意味這這一點的梯度爲 0。梯度消失了。

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

爲什麼會出現兩個分佈沒有重疊的現象

在這裏插入圖片描述

參考文獻

參考此博客

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章