貝葉斯統計概要(待修改)

一:頻率派,貝葉斯派的哲學

 

       現在考慮一個最最基本的問題,到底什麼是概率?當然概率已經是在數學上嚴格的,良好定義的,這要歸功於30年代大數學家A.N.Kolmogrov的概率論公理化。但是數學上的概率和現實世界到底是有怎樣的關係?我們在用數學理論--------概率論解決實際問題的時候,又應該用什麼樣的觀點呢?這真差不多是個哲學問題。這個問題其實必須得好好考察一下,下面我們看看最基本的兩種哲學觀,分別來自頻率派和貝葉斯派, 我們這裏的“哲學”指的是數學研究中樸素的哲學觀念,而不是很嚴肅的哲學討論。

 

      1.1.經典的統計(頻率派)的哲學


       1)概率指的是頻率的極限,概率是真實世界的客觀性質(objective property)

       2)概率分佈的參數都是固定的,通常情況下未知的常數,不存在"參數$\theta$滿足XXX的概率是X"這種概念。

       3)統計方法應該保證具有良好的極限頻率性質,例如95%區間估計應該保證當$N$足夠大的時候,我們選取$N$個樣本集$S_{1}$, $S_{2}$,...,$S_{N}$所計算出來的相應的區間$I_{1}$,$I_{2}$,...,$I_{N}$中將有至少95%*N個區間包含我們需要估計的統計量的真實值。


       

       我們從上看到,經典頻率派的統計是非常具有唯物主義(materialism)色彩的,而貝葉斯的哲學大不一樣,據考證貝葉斯是英格蘭的一名牧師,他研究數學的目的是爲了論證上帝的存在,但是很可惜沒有成功。神學背景可能是使他的數學具有主觀唯心色彩的一個重要因素,也使得貝葉斯統計從一開始就有一定的爭議。

 

     1.2.貝葉斯哲學:


      1)概率描述對某件事件發生的信念(Belief),或者稱相信度的大小,所以我們可以用“概率”來描述很多實際上不存在的事件,例如"我認爲希特勒贏得二戰的概率是0.1",雖然希特勒是輸了,但是0.1描述的是我對他獲勝這件事情的信念大小,它並不是頻率的極限,因爲我們並不可能坐着時光旅行器穿越回二戰一萬次去看希特勒贏了幾次,再算出他成功的概率,這裏的概率再也不是客觀性質,而是主觀信念。

      2)我們可以對概率分佈的參數做概率分佈假設,即使他們是固定的確定的參數。

      3)我們對參數$\theta$作統計推斷,不再將$\theta$看作是固定常數,而是具有某個假設分佈的隨機變量,所有的推斷,例如點估計,區間估計,假設檢驗都是這樣進行的。


      

     1.3.三種“概率”:

      傳統的頻率派的某件事件的概率指的是隨機試驗結果出現的頻率的極限,這種概率的定義過於依賴於所謂的隨機試驗,具有侷限性,他完全不考慮客觀上"不可能發生"的事件的概率,而貝葉斯派的概率對於客觀上“不可能發生”的事件也考慮其概率,這種概率在也與試驗無關,而是指的是人主觀上對某件事情發生的相信程度。但是這兩種概率的觀點都過於經驗主義,真正將概率論嚴格化成爲一門真正意義上的數學分支的還是Kolmogrov的“概率“,在那裏概率只是某種測度,滿足若干條公理,而實際應用中我們定義何種概率空間和概率測度完全取決於研究者問題的需要,也就是概率必須是要在一定的框架前提下談論的事情,這樣不僅以上兩種基於日常經驗的概率全部被包含在新的框架下,而且概率論也不再拘泥於經驗認識的範疇,而與廣泛的數學其他分支,如數論,動力系統,微分幾何,分析等學科發生聯繫。

 

二:貝葉斯推斷的基本思想

 

     2.1.貝葉斯統計三要素

      1)總體信息:總體信息包括概率空間$(\Omega,\mathcal{G},\text{P})$,定義於概率空間上的隨機變量$X_{0}$,某種總體分佈的信息,比如$X_{0}$滿足$\times\times$分佈。在貝葉斯統計中一般總體信息包含一個關於概率分佈的信息,那就是$X_{0}$服從某指定概率分佈族$\mathcal{P}=\lbrace P_{\theta}\rbrace_{\theta\in\Theta}$中的某一個分佈,其中$\Theta$爲歐式空間中的子集,我們稱之爲參數空間,並給定一個定義於其Borel集$\sigma$代數$\mathcal{B}_{\Theta}$的固定測度$\nu$(常見有Lebesgue測度或者計數測度),我們設其爲$P_{\theta_{0}}$,它是未知的。由於$\theta_{0}$的未知性,其實我們應該另外假定已經有一族固定的隨機變量$\mathcal{X}=\lbrace X_{\theta}\rbrace$,其中一個可能是$X_{0}=X_{\theta_{0}}$, 我們希望用某種估計手段估計出一個$\theta$出來,或者換句話說我們有函數:

                                                    $$X:\Omega\times\Theta\longrightarrow \mathbb{R}$$

                                                       $$X(\omega,\theta)\triangleq X_{\theta}(\omega),$$

現在假定該函數可測,相對於測度$\mathcal{G}\times\mathcal{B}_{\Theta}$與$\mathcal{B}_{\mathbb{R}}$。

       在實際應用中,$\Omega$往往是我們需要研究的現實世界中的對象全體,例如$\Omega$可以是“全體中國人“,變量$X_{0}$代表“身高”,而就算$\Omega$是有限集合,$X_{0}$也仍然可以近似服從正態分佈,這就是一些總體信息。

      2)先驗信息:先驗信息是貝葉斯統計和頻率派統計的最大不同,他指的是一個先驗概率分佈$p(\theta)$(又稱爲主觀概率),$$\int_{\Theta}p\text{d}\nu=1$$,是對於我們在還不知道模型的參數值的情況下對於其等於$\Theta$上各點的相信程度, 例如$p(\theta)$越大的話表示我們對$\theta_{0}=\theta$這件事的相信程度就越大。先驗分佈一般是根據歷史的統計結果,生活和實踐的經驗得出的,不是隨便亂猜測的。

      3)樣本信息實踐中往往樣本總體過於龐大,我們需要通過隨機試驗(Random experiment)抽取樣本空間中的$N$個元素$\omega_{1},...,\omega_{N}\in\Omega$,再觀察隨機變量$X_{0}$在其上的取值:$x_{i}\triangleq X_{0}(\omega_{i}),i=1,...,N$,得到的數據$\mathcal{D}=(x_{1},...,x_{N})$,我們稱$\mathcal{D}$爲一個樣本。事實上,在我們不確定參數值的情況下抽樣的隨機性可以用如下概率模型描述:

              首先我們令$(\Theta,\mathcal{B}_{\Theta})$上的測度$\Pi$滿足$\frac{\text{d}\Pi}{\text{d}\nu}=p$,我們構造一個新的概率空間$(\Omega^{\prime},\mathcal{G}^{\prime},\text{P}^{\prime})\triangleq (\Omega^{N}\times\Theta,\mathcal{G}^{N}\times\mathcal{B}_{\Theta},\text{P}^{N}\times\Pi)$,其中$\Omega^{N}$爲$\Omega$的$N-$重笛卡爾積,相應的$\mathcal{G}^{N},P^{N}$爲乘積$\sigma-$代數,測度,我們定義新的隨機變量:

                                          $$X_{i}:\Omega^{N}\times\Theta\longrightarrow \mathbb{R}$$

                                   $$X_{i}(\omega_{1},\omega_{2},...,\omega_{N},\theta)\triangleq X(\omega_{i},\theta),$$

對$i=1,...,N$,則很容易驗證對於任意的固定參數$\theta\in\Theta, X_{i}(\cdot,\theta),i=1,...,N$爲一組概率空間$(\Omega^{N},\mathcal{G}^{N},\text{P}^{N})$的意義下的獨立同分布隨機變量,其與$X_{\theta}$同分布,而一個樣本只不過是隨機向量$\text{S}\triangleq (X_{1},...,X_{N})$的值域中的一個點。

 

     2.2.貝葉斯公式

       現在我們有定義在$(\Omega^{\prime},\mathcal{G}^{\prime},\text{P}^{\prime})$上的隨機向量$\text{S}$,那麼$\text{S}=(X_{1},...,X_{N})$與參數$\theta$自然有一個聯合分佈的密度函數滿足:

                               \begin{equation}P(x_{1},...,x_{N},\theta)=p(\theta)\prod_{i=1}^{N}P_{\theta}(x_{i})\end{equation}

        我們規定對任意$(x_{1},...,x_{N})\in\mathbb{R}^{N}$在這篇博文裏都用花寫字母$\mathcal{D}$表示,代表着某個樣本,這時我們簡寫:

                                   \begin{equation}P(\mathcal{D},\theta)\triangleq P(x_{1},...,x_{N},\theta),\end{equation}


 \begin{equation}P(\theta\mid\mathcal{D})=\frac{P(\mathcal{D},\theta)}{P(\mathcal{D})}=\frac{P(\mathcal{D}\mid\theta)p(\theta)}{\int_{\Theta}P(\mathcal{D}\mid\beta)p(\beta)\text{d}\nu(\beta)}\end{equation}


 

     

     2.3.貝葉斯統計的基本流程


     1)選擇一個合適的參數$\theta$分佈的概率密度$p(\theta)$,我們稱之其爲先驗分佈( prior distribution);

     2)選擇一個概率分佈模型$P(x\mid \theta)$;

     3)在觀測到數據$\mathcal{D}=(x_{1},...,x_{N})$之後,計算$\theta$的後驗分佈(posterior distribution ):

            \begin{equation}P(\theta\mid \mathcal{D})\triangleq\frac{P(\mathcal{D}\mid\theta)p(\theta)}{\int_{\Theta}P(\mathcal{D}\mid\beta)p(\beta)\text{d}\nu(\beta)},\end{equation}

        以更新我們對參數$\theta$分佈的認知。


 

     除了上面三個基本步驟外,3)中我們計算出後驗分佈以後,還可以估算出分佈$P(\theta\mid \mathcal{D})$的一些統計量,主要有如下三種:

  • 估算期望,這被稱爲後驗期望估計(Expected a posteriori);
  • 估算衆數(Mode),被稱爲極大後驗估計(Maximum a posteriori);

  • 中位數等等,這被稱爲後驗中位數估計(posterior median).

     最終選擇哪一種數作爲我們模型參數的點估計,還得用所謂的貝葉斯決策論。進一步,我們還可以利用後驗分佈來進行區間估計假設檢驗。下面重點看一下一種推斷方法,也就是估計後驗分佈的衆數,也被稱爲極大後驗估計(maximum a posteriori estimate, MAP)。

 

 

 

三:極大後驗估計MAP

 

\begin{equation}p(\theta\mid\mathcal{D})=\frac{p(\mathcal{D}\mid\theta)p(\theta)}{\int_{\Theta}p(\mathcal{D}\mid\beta)p(\beta)\text{d}\nu(\beta)}\end{equation}

 點估計:

\begin{equation}\theta^{\ast}=\mathop{\arg\min}_{\theta\in\Theta}p(\theta\mid\mathcal{D})\end{equation}

      

    3.1.極大後驗估計的特點

 

       3.1.1 衆數的特殊性

        極大後驗估計的最基本特點是其顯著依賴於先驗分佈的選取。尤其是在某些特殊情況下,例如當衆數遠遠大於分佈的大多數值的時候,後驗分佈的衆數難以反映後驗分佈的整體情況因爲衆數只不過是分佈的一個特殊點而已。例如如果後驗分佈呈現是如下情況的時候(選自[ ]):

         

 

這時藍線代表的是後驗分佈的期望所在的位置,在這種情況之下後驗期望估計可能會更優於極大後驗估計,所以先驗分佈的選擇就顯得尤爲重要。

       

       3.1.2.參數變換

       另外,極大後驗估計不是參數變換下不變的,這是極大後驗估計的一大缺陷。具體來說,如果參數空間$\Theta$是歐式空間的某個開集,我們做一個參數變換:

                                             \begin{equation}\theta=f(\theta^{\prime}),\end{equation}

其中$f:\Theta^{\prime}\longrightarrow\Theta$將某個開集$\Theta^{\prime}$1-1映射爲$\Theta$,且$f,f^{-1}$均一階連續。由上面的式子我們得到一個新的參數空間$\Theta^{\prime}$以及參數$\theta^{\prime}\in\Theta^{\prime}$,且新的參數也完全完全可以刻畫概率分佈族$p(x\mid\theta)$, 也就是$p(x\mid\theta^{\prime})=p(x\mid\text{f}(\theta^{\prime}))$。

      這時候由變量替換得到:$$p(\theta)\text{d}\theta=p(\theta)\vert\det(\frac{\partial\theta}{\partial\theta^{\prime}})\vert\text{d}\theta^{\prime},$$

其中$\det(\frac{\partial\theta}{\partial\theta^{\prime}})$是$\theta$關於$\theta^{\prime}$的Jacobian行列式。有上式我們立即得到$p(\theta^{\prime})=p(\theta)\vert\det(\frac{\partial\theta}{\partial\theta^{\prime}})\vert$,由該式子出發進一步利用貝葉斯公式我們有:

                                                             \begin{equation}P(\theta^{\prime}\mid\mathcal{D})=P(\theta\mid\mathcal{D})\vert\det(\frac{\partial \theta}{\partial \theta^{\prime}})\vert\end{equation}

由於右邊多出了個$\det(\frac{\partial\theta}{\partial\theta^{\prime}})$, 所以我們知道極大後驗估計不是參數變換下不變的, 這是MAP大大不同於後驗期望估計和後驗中位數估計的地方。更多具體例子參見[1], 5.2.1.4。

 

      3.2.極大後驗估計和正則化的關係

$$P(\theta\mid\mathcal{D})\varpropto \mathcal{L}(\theta)p(\theta),$$

\begin{equation}\theta_{\text{MAP}}=\mathop{\arg\max}_{\theta\in\Theta}P(\theta\mid\mathcal{D})=\mathop{\arg\max}_{\theta\in\Theta}\mathcal{L}(\theta)p(\theta)=\mathop{\arg\min}_{\theta\in\Theta}[-\log (\mathcal{L}(\theta))-\log(p(\theta))].\end{equation}

      在機器學習中很多模型是在做極大似然估計(Maximum likelihood estimate),例如線性迴歸,Logistic迴歸。這時候如果我們選取先驗概率分佈爲某期望爲$0$的高斯分佈,則容易知道$-\log p(\theta)=\lambda\vert \theta\vert^{2}+C$,其中$\lambda,C>0$爲常數。所以這時候:

 \begin{equation}\theta_{\text{MAP}}=\mathop{\arg\min}_{\theta\in\Theta}[-\log (\mathcal{L}(\theta))+\lambda\vert \theta\vert^{2}].\end{equation}

從上可知這時候的極大後驗估計只不過是L2正則化了的$極大似然估計。同理當我們取先驗分佈爲拉普拉斯分佈的時候,所得到的是L1正則化了的極大似然估計。從中看出,所謂的L1正則化,L2正則化只不過是具有特殊先驗分佈的MAP估計。

 

 

四.先驗概率的選擇(待續)

       

 

五.貝葉斯區間估計

        

      在貝葉斯統計的框架下,我們可以光明正大地談:$\theta$滿足$\times\times\times$條件的概率是$\times$這個概念,但是在頻率派那裏,因爲這個概念是錯誤的,所以“置信區間”這個概念不太好被理解,但是實際上很多人就是將頻率派框架下的置信區間錯誤地理解爲關於參數的概率。


       定義:一般的,對於給定的樣本$\mathcal{D}$,如果已經得到後驗分佈$P(\theta\mid\mathcal{D})$,且存在統計量$\theta_{L}=\theta_{L}(\mathcal{D})$和$\theta_{U}=\theta_{U}(\mathcal{D})$使得:

                          \begin{equation}P(\theta\in [\theta_{L},\theta_{U}])\mid\mathcal{D})\geq 1-\alpha\end{equation}

則我們稱$[\theta_{L},\theta_{U}]$爲$\theta$的$1-\alpha$貝葉斯可信區間(credible interval)。


      我們對比一下貝葉斯可信區間和頻率派置信區間的區別:

      頻率派的$1-\alpha$置信區間指的是對任意樣本$\mathcal{D}$我們有某個區間$\text{I}_{\mathcal{D}}$,使得"區間包含固定參數值$\theta$"的概率是不小於$1-\alpha$的,注意這時候的概率是相對"抽樣"這件隨機事件而言的,而不是相對"參數",因爲參數是個固定值,只是我們不知道它是多少而已。換句話說,正如開頭所說的那樣,95%區間估計應該保證當$N$足夠大的時候,我們任意隨機,獨立地選取$N$個樣本集$S_{1}$, $S_{2}$,...,$S_{N}$所計算出來的相應的區間$I_{1}$,$I_{2}$,...,$I_{N}$中將有至少95%N個區間包含我們需要估計的統計量的真實值。

      而貝葉斯派的可信區間的意義就簡單得多,它就是指"$\theta$屬於區間的後驗概率"大於等於$1-\alpha$。

      在實際應用中,我們一般選取一個$1-\alpha$中心可信區間,也就是選取一個區間使得兩端的尾部的概率均爲$\alpha/2$,也就是說使得$P(\theta>\theta_{U}\mid\mathcal{D})=\alpha/2$以及$P(\theta<\theta_{L}\mid\mathcal{D})=\alpha/2$。當後驗概率的分佈函數有明確而簡單的形式的時候我們可以直接方便得計算$\theta_{L}=F^{-1}(1-\alpha/2)$,$\theta_{U}=F^{-1}(\alpha/2)$,否則我們就使用蒙特卡羅法或者馬爾科夫鏈蒙特卡羅方法進行近似計算。

 

六.貝葉斯決策論

 

      下面簡單介紹一下貝葉斯決策論。所謂貝葉斯決策論(Bayesian decision theory)就是一個人與自然的一種博弈策略。想象一下,人和大自然或者人類社會有一場遊戲,大自然(或者神學地講,“上帝”)或者人類社會,會以一定概率隨機從某個狀態空間$\Theta$中抽取某個狀態$\theta\in\Theta$,然後人類隨後隨機抽取一滿足該狀態的數據$\mathcal{D}$,然後人類得猜測這個狀態是多少。那麼,人該怎麼決策呢?

       我們現在只討論一種情形,其遊戲規則如下:$\Theta$是某個概率分佈$p(x\mid\theta)$的參數空間,每次我們可以得到一個樣本$\mathcal{D}=(X_{1},...,X_{M})$,$X_{i}\sim p(\cdot\mid\theta)$,且:

       1)我們有$\theta$的先驗概率分佈$p(\theta)$,是根據以往的人類對自然界或者社會類似事情的統計結果得到的,有助於決策的進行;

       2)我們有一個行動集$\mathcal{A}$,一個損失函數$L:\Theta\times\mathcal{A}\longrightarrow \mathbb{R}$,以表示每次我們做出決策行動後所承擔的損失,常見的損失函數有$\mathop{\text{L}}^{2}$,$\mathop{\text{L}}^{1}$,$0-1$損失函數等等。

       那麼我們該如何做決策呢?在貝葉斯框架下,一種自然的思路是:

                                 \begin{equation}\delta(\mathcal{D})\triangleq\mathop{\arg\min}_{\alpha\in\mathcal{A}}\text{E}_{p(\theta\mid\mathcal{D})}(L(\theta,\alpha)),\end{equation}

 其中$\text{E}_{p(\theta\mid\mathcal{D})}$表示後驗分佈下的期望也就是:

                                 \begin{equation}\text{E}_{p(\theta\mid\mathcal{D})}(L(\theta,\alpha))=\int_{\Theta}L(\theta,\alpha)p(\theta\mid\mathcal{D})\text{d}\theta\end{equation}

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章