模式識別與機器學習(二)——概率論基礎、頻率派與貝葉斯派 1.2上 概率論基礎

1.2上 概率論基礎

概率論是整個模式識別與機器學習的基礎,本節對應PRML書1.2節的概率部分,以後不再單獨說明。

求和法則與乘法法則

假設有兩個離散隨機變量 XYX 的取值範圍爲 x_i,(i=1,2,...,M)Y 的取值範圍爲 y_j,(j=1,2,...,L)。我們考慮在 N 次實驗中同時對 XY 進行採樣,設 n_{ij} 表示 X=x_iY=y_j 發生的次數,c_i 表示 X=x_i 發生的次數(不管 Y 取值多少),r_j 表示 Y=y_j 發生的次數。

那麼根據頻率學派的觀點,X=x_iY=y_j 發生的概率,即二者的聯合概率(joint probability)定義爲點 (X,Y) 落在單元(i, j)的次數佔總實驗次數的比例:
p(X=x_i, Y=y_j)=\frac{n_{ij}}{N}
這裏我們默認N\to \infty。類似地,X=x_i的概率p(X=x_i)由如下公式給出:
p(X=x_i)=\frac{c_i}{N}
注意到 c_i=\sum_{j=1}^L n_{ij},由此我們可以得到概率論中的求和法則(sum rule)
p(X=x_i)=\frac{c_i}{N}=\sum_{j=1}^L \frac{n_{ij}}{N}=\sum_{j=1}^L p(X=x_i, Y=y_j)
如果我們只考慮 X=x_i 的樣例中 Y=y_j 樣本所佔的比例,記爲 p(Y=y_j|X=x_i),也被稱爲給定 X=x_i 情況下 Y=y_j 的條件概率,則該條件概率可以由落在單元 (i, j) 內的點的個數與落在第 i 列的點的總數的比值給出:
p(Y=y_j|X=x_i)=\frac{n_{ij}}{c_i}
在定義了條件概率之後,我們回過頭來看聯合概率,可以發現:
p(X=x_i, Y=y_j)=\frac{n_{ij}}{N}=\frac{n_{ij}}{c_i}\cdot \frac{c_i}{N}=p(Y=y_j|X=x_i)p(X=x_i)
上述公式即爲概率論中的乘法法則(product rule)

爲了表述方便,我們將X,Y的具體取值省略,將兩個法則寫爲:

\begin{aligned}\textbf{sum rule}\quad\quad &p(X)=\sum\limits_{Y}p(X,Y)\\\textbf{product rule}\quad\quad &p(X, Y)=p(Y|X) p(X)\end{aligned}

這兩個簡單的規則組成了全書中使⽤的全部概率推導的基礎。

貝葉斯公式

根據乘法法則以及聯合概率的對稱性(p(X,Y)=p(Y,X))可得:
p(Y|X)p(X)=p(X|Y)p(Y)
上式又可以改寫爲
p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}
這個公式就是概率論中的貝葉斯公式(Bayes' theorem),它在機器學習和模式識別中發揮着至關重要的作用。其中 p(Y|X) 稱爲後驗概率(posterior probability)p(X|Y) 稱爲似然函數(likelihood function)p(Y) 稱爲先驗概率(prior probability),p(X) 稱爲歸一化因子(normalize factor)。根據加法公式我們可以把分母用分子中的似然函數和先驗概率來表示:
p(X)=\sum_{Y}p(X|Y)p(Y)
如果聯合概率可以分解爲各自邊緣概率的乘積,即 p(X, Y)=p(X)p(Y) ,則我們說 XY 彼此獨立,並且有 p(Y|X)=p(Y),也就是說給定 X 情況下 Y 的分佈與 X 的取值無關。

概率密度

我們可以把概率的定義從離散的情況推廣到連續的情形,在這種背景下,我們引入概率密度函數(probability density)p(x)來描述連續隨機變量 X 的概率分佈。

概率密度\delta x\to 0時,如果X落在區間(x,x+\delta x)的概率等於p(x)\delta x,即
\lim_{\delta x\to 0} p\big(X\in(x,x+\delta x)\big)=p(x)\delta x
則稱p(x)X的概率密度函數

注意到當 \delta x\to 0時,p(x)\delta x 可以視爲圖中陰影部分的面積:

那麼 X 落在區間 (a,b) 內的概率 p(X\in(a,b)) 就是 p(x) 在區間 (a,b) 內的面積,我們可以用概率密度的積分來表示它:
p(X\in(a,b))=\int_a^b p(x)dx
此外,考慮到概率的性質,概率密度也必須滿足:

p(x)\geq 0\\ \int_{-\infty}^{\infty} p(x)dx=1

利用密度函數在一個區間上的積分等於隨機變量落在這個區間上的概率這一性質,我們可以定義累積密度函數(cdf)
P(z)=\int_{-\infty}^z p(x) dx

P(z)表示 X 處於(-\infty, z)之間的概率,且滿足P'(x)=p(x)

假設我們知道x的概率密度爲 f_X(x),如果我們對 x 做一個非線性變換 y=g(x) ,那麼我們可以用如下公式計算 y 的概率密度 f_Y(y)
f_Y(y)=f_X(g^{-1}(y))\bigg|\frac{d }{dy}g^{-1}(y)\bigg|

這個公式稱爲變元公式(change of a variable),證明過程如下:
首先將P(X\leq x)簡記爲 P_X(x) ,將 P(Y\leq y) 簡記爲 P_Y(y)。因爲概率密度是分佈函數的導數,根據定義我們有
\begin{aligned}f_Y(y)&=\frac{d}{dy}P_Y(y)=\frac{d}{dy}P(g(X)\leq y)\\&=\frac{d}{dx}P_X(g^{-1}(y))\bigg|\frac{dx}{dy}\bigg|\\&=f_X(g^{-1}(y))\bigg|\frac{d}{dy}g^{-1}(y)\bigg|\end{aligned}
同樣地,我們可以將加法公式、乘法公式和貝葉斯公式推廣到連續隨機變量上:

\begin{aligned}\textbf{sum rule}\quad\quad &p(x)=\int p(x,y) dy\\\textbf{product rule}\quad\quad &p(x, y)=p(y|x) p(x)\\\textbf{Bayes' rule}\quad\quad &p(y|x)=\frac{p(x|y) p(y)}{\int_Y p(x|y) p(y) dy}\end{aligned}

期望和協方差

函數 f(x) 在概率密度 p(x) 下的加權平均稱爲 f(x)期望(expectation),當 X 爲離散隨機變量時期望定義爲
\mathbb{E}[f]=\sum_x p(x) f(x)

X 爲連續隨機變量時期望定義爲
\mathbb{E}[f]=\int p(x)f(x) dx
給定 N 個從分佈 p(x) 抽樣得到的樣本 x_1, x_2, ...,x_N,我們可以用如下公式近似估計期望:
\frac{1}{N}\sum_{n=1}^N f(x_n)\approx \mathbb{E}[f]
N\to\infty 時,上式的估計會變的精確。
有時我們希望計算多元函數關於某個變量的期望,我們用下標指定要求期望的變量:
E_x[f(x,y)]=\int f(x,y)p(x)dx

條件期望(conditional expectation)定義爲
E_x[f|y]=\int p(x|y)f(x)dx
函數 f(x) 的方差定義爲
var[f]=\mathbb{E}\big[(f(x)-\mathbb{E}[f(x)])^2\big]
經過一番計算,方差可以簡化爲
var[f]=\mathbb{E}[f(x)^2]-\mathbb{E}[f(x)]^2

隨機變量 xy協方差(covariance)定義爲
cov[x,y]=\mathbb{E}_{x,y}[\{x-\mathbb{E}[x]\}\{y-\mathbb{E}[y]\}=\mathbb{E}_{x,y}[xy]-\mathbb{E}[x]\mathbb{E}[y]

隨機向量 \mathbf{x}\mathbf{y}協方差(covariance)定義爲
cov[\mathbf{x}, \mathbf{y}]=\mathbb{E}_{\mathbf{x},\mathbf{y}}[\{\mathbf{x}-\mathbb{E}[\mathbf{x}]\}\{\mathbf{y}^\top-\mathbb{E}[\mathbf{y}^\top]\}=\mathbb{E}_{\mathbf{x},\mathbf{y}}[\mathbf{x}\mathbf{y}^\top]-\mathbb{E}[\mathbf{x}]\mathbb{E}[\mathbf{y}^\top]

貝葉斯概率

本章⽬前爲⽌,我們根據隨機重複事件的頻率來考察概率。我們把這個叫做經典的(classical)或者頻率學家(frequentist)的關於概率的觀點,簡稱頻率派。現在我們轉向更加通⽤的貝葉斯派(Bayesian)觀點。這種觀點中,提供了不確定性的⼀個定量化描述。 考慮以下問題:

2050年南極冰川是否會全部融化?

因爲我們無法對其進行觀測和實驗,這就導致了該事件的概率是未定義的。貝葉斯統計學則爲我們提供了一種完全不同的視角來看待這個問題。貝葉斯派認爲概率是一種不確定性的度量,是人對於某個不確定事件是否會發生的置信度。貝葉斯的主要思路是通過不斷收集證據來修正人對某件事的主觀認識,比如我們可以通過觀察南極冰川融化的速度來量化其不確定性,從而決定是否要減少溫室氣體的排放。 在這樣的情況下,我們可能希望能夠定量地描述不確定性,並且根據少量新的證據對不確定性進⾏精確的修改,對接下來將要採取的動作進⾏修改,或者對最終的決策進⾏修改。這可以通過⼀種優雅的通⽤的貝葉斯概率觀點來實現。

考慮上一節介紹的曲線擬合的例子,對於觀察到的變量 t_n 這⼀隨機值的概率,頻率派的觀點似乎是很合理的。然⽽,我們想針對模型參數 w 的合適選擇進⾏強調和定量化。我們將會看到,從貝葉斯的觀點來看,我們能夠使⽤概率論來描述模型參數的不確定性,或者模型本⾝的選擇。獲得觀測樣本前我們對於模型參數 \mathbf{w} 的假設以先驗分佈 p(\mathbf{w}) 的形式表達,採集到的觀測數據 \mathcal{D}=\{(x_1,t_1),...,(x_N, t_N)\}通過似然函數p(\mathcal{D}|\mathbf{w}) 發揮作用,注意到它是關於 \mathcal{D}(已知)的分佈,因此它是關於 \mathbf{w} 的函數,反映了在不同的模型參數 \mathbf{w} 下產生該組觀測值的可能性。通過似然函數,我們將關於 \mathbf{w} 的置信度轉變爲了後驗概率分佈 p(\mathbf{w}|\mathcal{D}) 的形式,它讓我們能夠通過後驗概率 p(\mathbf{w}|\mathcal{D}) 在獲得觀測數據 \mathcal{D} 後估計 \mathbf{w} 的不確定性(對於先驗 p(\mathbf{w}) 的修正)。具體地,依據貝葉斯公式有:
p(\mathbf{w}|\mathcal{D})=\frac{p(\mathcal{D}|\mathbf{w})p(\mathbf{w})}{p(\mathcal{D})}

注意到 p(\mathcal{D}) 只是個定值,起到歸一化作用,我們可以將其用先驗和似然的乘積關於 \mathbf{w} 的積分表示出來
p(\mathcal{D})=\int p(\mathcal{D}|\mathbf{w})p(\mathbf{w})d\mathbf{w}
如果忽略 p(\mathcal{D}),我們可以將先驗、似然、後驗之間的關係表達爲如下的形式:
posterior \propto likelihood \times prior
其中\propto表示正比符號,三個量都可以視爲 \mathbf{w} 的函數。

貝葉斯觀點的⼀個優點是對先驗概率的包含是很⾃然的事情。例如,假定投擲⼀枚普通的硬幣3次,每次都是正⾯朝上。⼀個經典的最⼤似然模型在估計硬幣正⾯朝上的概率時,結果會是1,表示所有未來的投擲都會是正⾯朝上!相反,⼀個帶有任意的合理的先驗的貝葉斯⽅法將不會得出這麼極端的結論。

頻率派VS貝葉斯派

無論是頻率派還是貝葉斯派,似然函數都起着重要的作用,然而對似然函數使用方式的不同是兩者最本質的區別。以上一節介紹的曲線擬合爲例,頻率派認爲參數 \mathbf{w} 是固定的,我們通過最大化似然函數的思想利用觀測數據去反推這個參數值 \mathbf{w}。這對應於選擇使觀察到的數據集出現概率最⼤的參數值。在機器學習的⽂獻中,似然函數的負對數被叫做誤差函數(error function)。由於負對數是單調遞減的函數,最⼤化似然函數等價於最⼩化誤差函數。

而貝葉斯派則認爲我們只有一個數據集 \mathcal{D}(即實際觀測到的數據集),模型參數 \mathbf{w} 是隨機的,我們通過似然函數將先驗修改爲後驗。

針對貝葉斯⽅法的⼀種⼴泛的批評就是先驗概率的選擇通常是爲了計算的⽅便而不是爲了反映出任何先驗的知識。某些⼈甚⾄把貝葉斯觀點中結論對於先驗選擇的依賴性的本質看成困難的來源。 特殊情況下,如果把先驗去掉或者先驗是uniform distribution,則貝葉斯方法等價於頻率方法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章