隨機過程的熵率

隨機過程(Stochastic Process)\(\newcommand{\E}{\mathbb{E}}\)

在漸進均分性中,我們討論的是一列獨立同分布的隨機變量。現在我們要討論一列並不獨立同分布的隨機變量,這樣的一列隨機變量通常被稱爲一個“隨機過程”,記爲\(X_1,X_2,\cdots,X_t,\cdots\)。隨機變量\(X_i\)的下標\(i\)通常稱爲時間(必須是整數,但可以是負數),這樣我們就能把這列隨機變量看作一個隨時間變化的狀態。例如一維數軸上的隨機遊走就是一個隨機過程。在這裏,我們認爲\(X_i\)的取值個數是可數的,這樣的隨機過程稱爲離散的隨機過程。

一個隨機過程的特性通過聯合分佈\(\Pr[X_1=a_1\and X_2=a_2\and \cdots \and X_t=a_t],\forall t\)來刻畫(假設\(t\)從1開始)。如果對於任意的整數\(n,l\),聯合分佈都滿足\(\Pr[X_1=a_1\and \cdots \and X_n=a_n]\)\(=\Pr[X_{1+l}=a_{1+l}\and\cdots\and X_{n+l}=a_{n+l}]\),就稱這個隨機過程是stationary(平穩)的。也即這個隨機過程中變量的分佈是與時間無關的。如果一個隨機過程滿足對任意的時間\(t\)都有\(\Pr[X_t=a_t\mid X_{t-1}=a_{t-1},\cdots,X_1=a_1]=\)\(\Pr[X_t=a_t\mid X_{t-1}=a_{t-1}]\),也即每個隨機變量的取值分佈都只與前一時間的隨機變量有關,就稱這個隨機過程是一個(離散)馬爾可夫鏈(Discrete Markov Chain)。一維隨機遊走就是一個馬爾可夫鏈。如果\(X_t\)可能的取值是有限的,假設不超過\(n\)種,那麼我們就能用一個\(n\times n\)的矩陣\(P_t\)來描述\(\Pr[X_t=a_t\mid X_{t-1}=a_{t-1}]\)。這稱爲這個馬爾可夫鏈的狀態轉移矩陣。對於一個stationary的馬爾可夫鏈,狀態轉移矩陣與時間\(t\)無關,那麼只需要一個矩陣\(P\)以及初始分佈\(X_1\)就可以完全刻畫這個馬爾可夫鏈:設\(X_t\)的分佈爲\(\mu_t\),那麼\(\mu_t^\top P=\mu_{t+1}^\top\)。由此,\(\mu_t^\top=\mu_1^\top P^{t-1}\)

對於stationary的馬爾可夫鏈,如果存在一個分佈\(\pi\)滿足\(\pi^\top P=\pi^\top\),也即狀態轉移後分布不變,那麼稱\(\pi\)爲一個穩態分佈(Stationary Distribution)。我們可以證明,stationary的有限馬爾可夫鏈一定存在一個穩態分佈(證明:補)。

熵率(Entropy Rate)\(\newcommand{\X}{\mathcal{X}}\)

一個隨機過程的熵率定義爲\(H(\mathcal{X})=\lim\limits_{n\to\infty}\dfrac{1}{n}H(X_1,X_2,\cdots,X_n)\),它描述前\(n\)個隨機變量的聯合熵取平均值隨\(n\)趨向無窮後的取值。

根據鏈式法則,\(H(X_1,\cdots,X_n)=\sum\limits_{i=1}^{n}H(X_i\mid X_1,\cdots,X_{i-1})\),於是\(\lim\limits_{n\to\infty} \dfrac{1}{n}\sum\limits_{i=1}^{n}H(X_i\mid X_1,\cdots,X_{i-1})\)。現在對於stationary的隨機過程,我們注意到\(H(X_n\mid X_1,\cdots,X_{n-1})\)一定是收斂的:根據條件熵的性質,始終成立\(H(X_{n+1}\mid X_1,\cdots, X_n)\leq H(X_{n+1}\mid X_2,\cdots,X_n)\),而根據stationary這就等於\(H(X_{n}\mid X_1,\cdots,X_{n-1})\)。也即\(H(X_n\mid X_1,\cdots,X_{n-1})\)一定是隨\(n\)遞減的,而由於熵是非負的,它一定有下界\(0\)。那麼根據單調有界必收斂,\(H(X_n\mid X_1,\cdots,X_{n-1})\)一定收斂,我們把這個極限記爲\(H'(\X)\)。而根據Cauchy命題,我們定義的熵率\(H(\X)\)恰好等於這個極限\(H'(\X)\)。因此對於stationary的隨機過程,也可以定義熵率爲\(\lim\limits_{n\to\infty}H(X_n\mid X_1,\cdots,X_{n-1})\)。這通常是更容易計算的,它描述了前\(n\)個隨機變量對隨後的隨機變量貢獻的信息的極限情況,換言之它描述了隨着時間增長時熵的增長率。

對於stationary的馬爾可夫鏈,\(H(\X)=H'(\X)=\lim\limits_{n\to\infty}H(X_n\mid X_1,\cdots,X_{n-1})=\lim\limits_{n\to\infty}H(X_n\mid X_{n-1})\)\(=\lim\limits_{n\to\infty}H(X_2\mid X_{1})=H(X_2\mid X_{1})\)。設\(X_1\)的可能取值集合爲\(\{v_i\}\),取\(v_i\)的概率爲\(\mu_i\),則\(H(X_2\mid X_1)=\sum\limits_{i}\mu_i H(X_2\mid X_1=v_i)\)\(=\sum\limits_{i}\mu_i\sum\limits_{j}(-P_{ij}\log P_{ij})\)。對於一般的馬爾可夫鏈,我們已經證明了(還沒證)如果它滿足irreducible與aperiodic,那麼它有唯一的穩態分佈,並且任意初始分佈都會收斂於穩態分佈。自然,此時取\(\mu\)爲這個穩態分佈代入上式依然會得到正確的熵率。

馬爾可夫鏈的函數\(\newcommand{\Y}{\mathcal{Y}}\)

對於stationary馬爾可夫鏈\(X_1,\cdots,X_n,\cdots\)和函數\(\phi\),由\(\phi\)給出了新的一列隨機變量\(Y_i=\phi(X_i)\),我們稱它爲馬爾可夫鏈\(\X\)的函數\(\mathcal{Y}\)。此時,我們並不能由此說明\(Y_i\)是馬爾可夫鏈。事實上很多時候\(\Y\)並不是馬爾可夫鏈。然而由於\(\X\)是時間無關的(stationary),因此\(\Y\)也勢必是時間無關的。因此,熵率\(H(\Y)=H'(\Y)=\lim\limits_{n\to\infty}H(Y_n\mid Y_1,\cdots,Y_{n-1})\)依然是well-defined的。

在計算熵率\(H(\Y)\)時,如果僅僅計算\(H(Y_n\mid Y_1,\cdots,Y_{n-1})\)是難以判斷收斂的,因爲收斂數列本身的差分是不足以判斷收斂情況的(調和級數就是例子)。爲此,我們希望能給出\(H(\Y)\)的關於\(n\)的上下界,如果上下界充分靠近就能判定收斂。在定義stationary隨機過程的熵率時,我們已經證明了單調遞減性\(H(Y_{n+1}\mid Y_1,\cdots, Y_n)\leq H(Y_{n}\mid Y_1,\cdots,Y_{n-1})\),這其實已經給出了上界\(H(\Y)\leq H(Y_n\mid Y_1,\cdots,Y_{n-1})\)始終成立。對於下界,我們驚奇地發現只要把\(Y_1\)替換爲\(X_1\),就得到了下界\(H(\Y)\geq H(Y_n\mid X_1,Y_2,\cdots,Y_{n-1})\),並且這一對上下界最終會夾逼收斂到\(H(\Y)\)。推導如下:由於\(Y_1\)\(X_1\)的函數,因此在\(H(Y_{n}\mid X_1,Y_2\cdots,Y_{n-1})\)中增加條件\(Y_1\)並不會改變熵的大小,於是\(H(Y_{n}\mid X_1,Y_2,\cdots,Y_{n-1})=H(Y_{n}\mid X_1,Y_1,Y_2,\cdots,Y_{n-1})\)。而\(X\)是馬爾可夫鏈,所以再往裏加入\(X_0,X_{-1},\cdots\)以及對應的函數值\(Y_0,Y_{-1},\cdots\)所有這些過時的條件也完全不能改變熵,因此又有\(=H(Y_n\mid X_{-k},\cdots,X_0,X_1,Y_{-k},\cdots,Y_0,Y_1,Y_2,\cdots,Y_{n-1})\)。現在丟掉所有\(X\)的條件,熵會變大,也即\(\leq H(Y_n\mid Y_{-k},\cdots,Y_0,Y_1,\cdots,Y_{n-1})\)。根據stationary,平移\(k+1\)個時間單位,得到\(H(Y_{n}\mid X_1,Y_2\cdots,Y_{n-1})\leq\)\(H(Y_{n+k+1}\mid Y_1,\cdots,Y_{n+k})\)。RHS在\(k\to\infty\)時就是\(H(\Y)\),因此\(H(Y_{n}\mid X_1,Y_2\cdots,Y_{n-1})\leq H(\Y)\)。最後我們要驗證\(n\to \infty\)時,\(H(Y_n\mid Y_1,\cdots,Y_{n-1})-H(Y_n\mid X_1,Y_2,\cdots,Y_{n-1})\to 0\)。首先,把\(H(Y_n\mid X_1,Y_2,\cdots,Y_{n-1})\)寫作\(H(Y_n\mid X_1,Y_1,Y_2,\cdots,Y_{n-1})\),那麼這個差可以等價地寫作互信息\(I(Y_n;X_1\mid Y_1,\dots,Y_{n-1})\)。要證它趨於0,只需證級數\(\sum\limits_{i=1}^{\infty}I(Y_i;X_1\mid Y_1,\cdots,Y_{i-1})\)收斂,而根據鏈式法則,這個級數等價於\(\lim\limits_{n\to\infty}I(X_1;Y_1,Y_2,\cdots,Y_n)\)。而\(I(X_1;Y_1,\cdots,Y_n)\)始終有上界\(H(X_1)\),並且級數\(\sum\limits_{i=1}^{\infty}I(Y_i;X_1\mid Y_1,\cdots,Y_{i-1})\)顯然是正項的。因此收斂得證。

最終我們得到了夾逼:\(H(Y_{n}\mid X_1,Y_2\cdots,Y_{n-1})\leq H(\Y)\leq H(Y_n\mid Y_1,\cdots,Y_{n-1})\)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章