VAE系列之KL散度推導和理解

儲備知識

多維高斯公式的表達和推導

一維正態分佈都爲大家所熟知:
N(x;μ,σ2)=12πσ2exp((xμ)22σ2)N(x;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}exp(-\frac{(x-\mu)^2}{2\sigma^2})
對於多維高斯分佈,x=(x1,x2,...,xn)\vec x = (x_1,x_2,...,x_n)各個隨機變量相互獨立,可以表示爲
f(x1,x2,..,xn)=f(x1)f(x2)...f(xn)f(x_1,x_2,..,x_n) = f(x_1)f(x_2)...f(x_n)
f(x)=12πσ12exp((xμ1)22σ12)12πσ22exp((xμ2)22σ22)...12πσn2exp((xμn)22σn2)=1(2π)nΠi=1i=nσi2exp(i=1i=n(xiμi)22σi2)(1)f(\vec x) = \frac{1}{\sqrt{2\pi\sigma_1^2}}exp(-\frac{(x-\mu_1)^2}{2\sigma_1^2})*\frac{1}{\sqrt{2\pi\sigma_2^2}}exp(-\frac{(x-\mu_2)^2}{2\sigma_2^2})*...*\frac{1}{\sqrt{2\pi\sigma_n^2}}exp(-\frac{(x-\mu_n)^2}{2\sigma_n^2}) = \frac{1}{\sqrt{(2\pi)^n\Pi_{i=1}^{i=n}\sigma_i^2}}exp(\sum_{i=1}^{i=n}-\frac{(x_i-\mu_i)^2}{2\sigma_i^2}) \qquad (1)
當然,深度學習這本書中給出的公式如下:
N(x;μ,Σ)=1(2π)2det(Σ)exp(12(xμ)TΣ1(xμ)(2)N(x;\mu,\Sigma) = \sqrt\frac{1}{(2\pi)^2det(\Sigma)}exp\lgroup(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\rgroup \qquad (2)
其中Σ\Sigmadet(Σ)\det(\Sigma)分別表示的是x\vec x的協方差矩陣和協方差矩陣的行列式。對於相互獨立的變量來說,任意兩個變量的cov(xi,xj)=0cov(x_i,x_j) = 0,其中iji \ne j
Σ=[σ112000σ222000 σnn2]\Sigma = \begin{bmatrix} \sigma_{11}^2 & 0 & \cdots & 0 \\ 0 & \sigma_{22}^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots\ &\sigma_{nn}^2 \\ \end{bmatrix}
所以方程式1和方程式2是等價的,前者用元素表達,後者用矩陣表達。

信息論之KL散度來源

信息論的一個基本想法是一個不太可能的事件居然發生了,要比一個非常可能的事件發生,能提供更多的信息[1]。
首先定義一個事件X=xX=x的自信息(self-information)
I(x)=logP(x)I(x) = -\log P(x)
其中I(x)的單位爲奈特(net),以e爲底。一奈特表示以1e\frac{1}{e}的概率觀測到一個事件的信息量。以2爲底成爲比特(bit),或者香農(shannons)。
我們可以用香農熵來對整個概率分佈中的不確定性總量進行量化:
H(x)=ExP[logP(x)]H(x) = -E_{x\sim P}[\log P(x)]

Jensen不等式

待續

The evidence lower bound

待續

[1] 深度學習

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章