微分熵

微分熵\(\newcommand{\d}{\text{ d}}\)

對於連續的隨機變量\(X\),假如它有概率密度函數\(f(x)\),那麼我們仿照離散熵的表達式,定義\(X\)的微分熵爲\(h(X)=-\displaystyle\int_S f(x)\log f(x)\d x\)。其中,\(S=\{x\mid f(x)>0\}\)。根據定義,連續隨機變量的微分熵只與\(f\)有關而與具體的取值無關,因此\(h(X)\)也可以記爲\(h(f)\)

\(X\)\([0,a]\)上的均勻分佈時,\(f(x)=\dfrac{1}{a}\)\(S=[0,a]\)。於是\(h(X)=-\displaystyle\int_0^a \dfrac 1 a \log \dfrac 1 a\d x=-\dfrac 1 a \log \dfrac 1 a\displaystyle\int_0^a \d x=\log a\)。由此可見,當\(a\in (0,1)\)時,\(h(X)<0\)。可見微分熵可以取負數值,這與離散熵很不同。這意味着,微分熵的“含義”本身就已經與離散熵完全不同,離散熵可以理解爲平均意義下表示一個隨機變量需要多少個bit,而這不可能是一個負數。

微分熵並不描述一個隨機變量所包含的“信息量”。事實上,我們不可能沿用與離散時相同的方法來描述連續隨機變量的信息量。試想要描述一個在\([0,1]\)上均勻分佈的連續隨機變量\(X\)需要多少位?這樣的連續隨機變量可以用一列\(X_1,\cdots,X_n,\cdots\)分別描述小數點後的某一位,每個\(X_i\)都在\([9]\)上均勻取值,這樣\(X\)的信息量就等於所有的\(H(X_i)\)求和,得到正無窮。也就是說,一個連續隨機變量的離散信息量是無窮的,需要無窮位才能描述。

既然不可能完全精確描述實數,那麼如果我們對\(X\)做截斷,只要求描述連續分佈中\(X\)在小數點後的前若干位呢?等價地,我們研究當我們對\(f(x)\)做離散分割後得到的離散熵與微分熵的關係。取\(\delta>0\),把\(S\)分割爲\([n\delta,(n+1)\delta]\)的區間,在每個區間上根據積分中值定理都有\(\delta\cdot f(\xi_n)=\displaystyle\int_{n\delta}^{(n+1)\delta} f(x)\d x\),令離散隨機變量\(X^{(\delta)}=\xi_n\),如果\(X\in [n\delta,(n+1)\delta]\)。顯然,\(p(X^{(\delta)})=f(\xi_n)\delta\),那麼\(H(X^{(\delta)})=-\sum\limits_{n}f(\xi_n)\delta\cdot \log(f(\xi_n)\delta)\)\(=-\sum\limits_{n}f(\xi_n)\delta\cdot \log(f(\xi_n))-\sum\limits_{n}f(\xi_n)\delta\cdot \log\delta\),因爲\(\sum\limits_{n}f(\xi_n)\delta=1\),所以得到\(\sum\limits_{n}f(\xi_n)\delta\cdot \log(f(\xi_n))-\log\delta\),當\(n\to\infty\)時前者就是\(h(X)\)。由此,\(H(X^{(\delta)})=h(X)-\log\delta\)。可見微分熵可以理解爲\(H(X^{(\delta)})+\log\delta\),也即如果用精度爲\(\delta\)的離散變量來逼近,離散熵總是等於微分熵加上一個\(-\log\delta\)的項。當\(\delta\to 0\)時,\(-\log\delta\to+\infty\)

\(\newcommand{\E}{\mathbb{E}}\)由於大數定理對連續情形依然成立,所以我們對於漸進均分性(AEP)以及典型集的討論都可以繼承離散的情形。\(-\dfrac{1}{n}\log f(X_1,\cdots,X_n)\to \E[-\log f(X)]=h(f)\)。關於典型集,唯一需要修改的是,集合的“大小”現在是無窮大。而如果採用相同的論證,就必須把\(\sum\limits_{x}\)替換成\(\displaystyle\int_{S}\d x\)。因此我們定義集合\(A\)的體積爲\(\text{Vol}(A)=\displaystyle\int_{A}\d x\),那麼再次得到\(\Pr(A_\epsilon^{(n)})>1-\epsilon\)\(2^{n(h(X)+\epsilon)}\leq \text{Vol}(A_\epsilon^{(n)})\leq (1-\epsilon)2^{n(h(X)-\epsilon)}\)。由此可見,微分熵的另一個直觀含義在於它刻畫了典型集的大小。微分熵越大,典型集越大,隨機變量的分佈越鬆散。可見,微分熵依舊在刻畫隨機變量的“不確定性”,但是在連續意義下不能用信息位數來理解不確定性。

性質

與離散熵相比,微分熵的性質與離散熵既有相同點,也有不同點。下面集中討論這些性質。

對於離散隨機變量,如果令\(X\)變爲\(X+c\),那麼分佈不會改變,因此熵不變。而對於連續隨機變量,加一個常數相當於概率密度函數的平移,而由於概率密度函數是在整條實軸上取值的,這其實是改變了概率分佈的。但我們可以計算得到平移是不改變微分熵的大小的:記\(Y=X+c\),則\(f_Y(x)=f_X(x+c)\)\(h(Y)=-\displaystyle\int_{S_Y} f_Y(x)\log f_Y(x)\d x=-\displaystyle\int_{S_Y} f_X(x+c)\log f_X(x+c)\d x\)\(-\displaystyle\int_{S_X} f_X(x)\log f_X(x)\d x=h(X)\)

而如果令\(X\)變爲\(aX\),微分熵是會改變的:記\(Y=aX\),則\(f_Y(x)=\dfrac{1}{|a|}f_X(\dfrac{x}{a})\)\(h(Y)=-\displaystyle\int_{S_Y} f_Y(x)\log f_Y(x)\d x\)\(=-\displaystyle\int_{S_Y} \dfrac{1}{|a|}f_X(\dfrac{x}{a})\log \left[\dfrac{1}{|a|}f_X(\dfrac{x}{a})\right]\d x\)\(=-\displaystyle\int_{S_Y} \dfrac{1}{|a|}f_X(\dfrac{x}{a})\log \dfrac{1}{|a|}\d x-\displaystyle\int_{S_Y} \dfrac{1}{|a|}f_X(\dfrac{x}{a})\log f_X(\dfrac{x}{a})\d x\)\(=\log |a|+h(X)\)。這個結論可以推廣至隨機向量的情況:\(h(AX)=H(X)+\log |\det A|\)

\(X\)滿足正態分佈\(N(\mu,\sigma^2)\)時,\(f(x)=\dfrac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)。我們以\(e\)爲底數計算\(h(X)=-\displaystyle\int_S f(x)\ln f(x)\d x\),那麼\(h(X)=-\displaystyle\int_{-\infty}^{+\infty}f(x)\ln\dfrac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\d x\)\(=-\displaystyle\int_{-\infty}^{+\infty}f(x)\ln\dfrac{1}{\sqrt{2\pi\sigma^2}}\d x-\displaystyle\int_{-\infty}^{+\infty}f(x)\ln e^{-\frac{(x-\mu)^2}{2\sigma^2}}\d x\)\(=-\ln\dfrac{1}{\sqrt{2\pi\sigma^2}}\displaystyle\int_{-\infty}^{+\infty}f(x)\d x+\displaystyle\int_{-\infty}^{+\infty}f(x)\cdot \frac{(x-\mu)^2}{2\sigma^2}\d x\),第一項根據概率密度函數的定義\(\displaystyle\int_{-\infty}^{+\infty}f(x)\d x=1\),第二項可以根據極座標變換或複分析的方法計算得到\(\displaystyle\int_{-\infty}^{+\infty}f(x)\cdot {(x-\mu)^2}\d x=\sigma^2\),於是\(h(X)=\dfrac{1}{2}\ln(2\pi\sigma^2)+\dfrac{1}{2}=\dfrac{1}{2}\ln(2\pi e\sigma^2)\)

。。。。。。。。。。。。。。。。。。。。。。。。。。。。沒寫完啦啦啦啦啦

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章