首先,我們知道, 熵 是用來量化數據中含有的信息量的,其計算公式爲:
1)KL散度(Kullback–Leibler divergence)
又稱KL距離,相對熵,用來比較兩個概率分佈的接近程度。
假設 爲數據的真實概率分佈, 爲數據的理論概率分佈,計算它們每個取值之間對應的差:
可以簡寫成:
當 和的相似度越高,KL散度越小。因此使用KL散度進行優化的過程爲:通過不斷改變預估分佈的參數,我們可以得到不同的KL散度的值。 在某個變化範圍內,KL散度取到最小值的時候,對應的參數是我們想要的最優參數。
KL散度主要有兩個性質:
-
不對稱性
KL散度不具有對稱性,即因此不能將它視爲“距離”,它衡量的是一個分佈相比另一個分佈的信息損失。 -
非負性
KL散度的值是非負值,即
2)交叉熵(Cross Entropy)
交叉熵和相對熵的關係如下:
因爲訓練數據的分佈是已知的,所以交叉熵與KL散度的意義類似。
3)JS散度(Jensen-Shannon divergence)
JS散度主要有兩個性質:
-
對稱性
JS散度具有對稱性,即 -
值域範圍
JS散度的值域範圍是[0,1],相同爲0,相反爲1。
在GAN中,它衡量的是隨機噪聲生成數據的概率分佈擬合真實數據的概率分佈的過程中產生的信息損耗,損耗越少,擬合越好,生成的數據越真實。但是KL散度和JS散度存在同一個問題,如果p分佈和q分佈相距很遠完全沒有重疊,KL散度值是沒有意義的,且會導致梯度消失,故引出了Wasserstein距離,明天學習這一部分。