VAE系列之KL散度推導和理解

原創

2020-07-04 03:13

儲備知識

多維高斯公式的表達和推導

一維正態分佈都爲大家所熟知：
$N(x;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}exp(-\frac{(x-\mu)^2}{2\sigma^2})$
對於多維高斯分佈， $\vec x = (x_1,x_2,...,x_n)$ 各個隨機變量相互獨立，可以表示爲
$f(x_1,x_2,..,x_n) = f(x_1)f(x_2)...f(x_n)$
$f(\vec x) = \frac{1}{\sqrt{2\pi\sigma_1^2}}exp(-\frac{(x-\mu_1)^2}{2\sigma_1^2})*\frac{1}{\sqrt{2\pi\sigma_2^2}}exp(-\frac{(x-\mu_2)^2}{2\sigma_2^2})*...*\frac{1}{\sqrt{2\pi\sigma_n^2}}exp(-\frac{(x-\mu_n)^2}{2\sigma_n^2}) = \frac{1}{\sqrt{(2\pi)^n\Pi_{i=1}^{i=n}\sigma_i^2}}exp(\sum_{i=1}^{i=n}-\frac{(x_i-\mu_i)^2}{2\sigma_i^2}) \qquad (1)$
當然，深度學習這本書中給出的公式如下：
$N(x;\mu,\Sigma) = \sqrt\frac{1}{(2\pi)^2det(\Sigma)}exp\lgroup(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\rgroup \qquad (2)$
其中 $\Sigma$ 和 $\det(\Sigma)$ 分別表示的是 $\vec x$ 的協方差矩陣和協方差矩陣的行列式。對於相互獨立的變量來說，任意兩個變量的 $cov(x_i,x_j) = 0$ ，其中 $i \ne j$ 。
$\Sigma = \begin{bmatrix} \sigma_{11}^2 & 0 & \cdots & 0 \\ 0 & \sigma_{22}^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots\ &\sigma_{nn}^2 \\ \end{bmatrix}$
所以方程式1和方程式2是等價的，前者用元素表達，後者用矩陣表達。

信息論之KL散度來源

信息論的一個基本想法是一個不太可能的事件居然發生了，要比一個非常可能的事件發生，能提供更多的信息[1]。
首先定義一個事件 $X=x$ 的自信息(self-information)
$I(x) = -\log P(x)$
其中I(x)的單位爲奈特(net)，以e爲底。一奈特表示以 $\frac{1}{e}$ 的概率觀測到一個事件的信息量。以2爲底成爲比特(bit)，或者香農(shannons)。
我們可以用香農熵來對整個概率分佈中的不確定性總量進行量化：
$H(x) = -E_{x\sim P}[\log P(x)]$

Jensen不等式

待續

The evidence lower bound

待續

[1] 深度學習

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

VAE系列之KL散度推導和理解

儲備知識

多維高斯公式的表達和推導

信息論之KL散度來源

Jensen不等式

The evidence lower bound

Python 爬蟲：Spring Boot 反爬蟲的成功案例

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

leetcode-66-加1

每日一算 Leetcode 104.二叉樹的最大深度

Ctrl+z, Ctrl+c, Ctrl+D的區別，以及Ctrl+z後的啓動

神經網絡中的兩種正則化---Batch Normalization和Weight Normalization

TensorFlow之tf.multiply和tf.matmul

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結