1.KL散度
- 用來衡量兩個分佈之間的差異,等於一個交叉熵減去一個信息熵(交叉熵損失函數的由來)
1.1 KL散度的性質
- 非負性(用Jenson‘s inequality 證明)
- 不對稱性,即KL(P||Q)≠KL(Q||P)
1.2 KL散度的問題即JS散度的引出
- 正是由於KL散度的不對稱性問題使得在訓練過程中可能存在一些問題,爲了解決這個問題,我們在KL散度基礎上引入了JS散度
2. JS散度
- 一般地,JS散度是對稱的,其取值是 0 到 1 之間。如果兩個分配 P,Q 離得很遠,完全沒有重疊的時候,那麼KL散度值是沒有意義的,而JS散度值是一個常數。這在學習算法中是比較致命的,這就意味這這一點的梯度爲 0。梯度消失了。