儲備知識
多維高斯公式的表達和推導
一維正態分佈都爲大家所熟知:
N(x;μ,σ2)=2πσ21exp(−2σ2(x−μ)2)
對於多維高斯分佈,x=(x1,x2,...,xn)各個隨機變量相互獨立,可以表示爲
f(x1,x2,..,xn)=f(x1)f(x2)...f(xn)
f(x)=2πσ121exp(−2σ12(x−μ1)2)∗2πσ221exp(−2σ22(x−μ2)2)∗...∗2πσn21exp(−2σn2(x−μn)2)=(2π)nΠi=1i=nσi21exp(∑i=1i=n−2σi2(xi−μi)2)(1)
當然,深度學習這本書中給出的公式如下:
N(x;μ,Σ)=(2π)2det(Σ)1exp⟮(−21(x−μ)TΣ−1(x−μ)⟯(2)
其中Σ和det(Σ)分別表示的是x的協方差矩陣和協方差矩陣的行列式。對於相互獨立的變量來說,任意兩個變量的cov(xi,xj)=0,其中i=j。
Σ=⎣⎢⎢⎢⎡σ1120⋮00σ222⋮0⋯⋯⋱⋯ 00⋮σnn2⎦⎥⎥⎥⎤
所以方程式1和方程式2是等價的,前者用元素表達,後者用矩陣表達。
信息論之KL散度來源
信息論的一個基本想法是一個不太可能的事件居然發生了,要比一個非常可能的事件發生,能提供更多的信息[1]。
首先定義一個事件X=x的自信息(self-information)
I(x)=−logP(x)
其中I(x)的單位爲奈特(net),以e爲底。一奈特表示以e1的概率觀測到一個事件的信息量。以2爲底成爲比特(bit),或者香農(shannons)。
我們可以用香農熵來對整個概率分佈中的不確定性總量進行量化:
H(x)=−Ex∼P[logP(x)]
Jensen不等式
待續
The evidence lower bound
待續
[1] 深度學習