機器學習/深度學習 常用概率知識

1.樣本空間

定義:樣本空間是一個隨機試驗所有可能結果的集合。比如:投擲一枚硬幣,樣本空間爲:{正面,反面}。隨機試驗中的每個可能結果叫做樣本點

有些試驗有兩個或者多個的樣本空間,比如:隨機抽取一張撲克,樣本空間可以是數字,可以是花色。這時候,如果要完整描述一張牌,就要使用到笛卡兒積

χ×y={<x,y>xχyy}(式1) \chi\times\mathbb{y}=\{<x,y>\vert{x}\in\chi\land{y}\in{\mathbb{y}}\}\tag{式1}

2.事件和概率

隨機事件或者(簡稱爲事件):是指一個被賦予概率的事物集合,也就是樣本空間中的一個子集。概率是指一個隨機事件發生的可能性大小,介於0和1之間。

2.1 隨機變量

在隨機試驗中,將試驗的結果用XX表示,這個XX會隨着試驗結果的不同而變化,是樣本點的一個函數。把這個數叫做隨機變量。比如擲骰子:隨機變量XX的取值爲{1,2,3,4,5,6}\{1,2,3,4,5,6\}

一個隨機事件也可以定義多個隨機變量。比如:在擲2個骰子的隨機事件中,可以定義隨機變量XX爲獲得點數之和,或者點數之差。分別記爲:XYX和Y
X(i,j):=i+j,x=2,3,,12(式2) X(i,j):=i+j,\qquad{x=2,3,\cdots,12}\tag{式2}

Y(i,j):=ij,y=0,1,2,3,4,5(式3) Y(i,j):=i-j,\qquad{y=0,1,2,3,4,5}\tag{式3}

其中,iji,j分別表示兩個骰子的點數。

2.1.1 離散隨機變量

離散隨機變量:如果隨機變量XX所有可能取到的值是有限的可以列舉的,有NN個有限值:
{x1,,xN}(式4) \{x_1,\cdots,x_N\}\tag{式4}
這樣一來,我們就把XX叫做離散隨機變量

記每一種可能的取值都有xnx_n的概率,P(X=xn)=p(xn)n{1,,N}P(X=x_n)=p(x_n)\qquad{\forall_n\in\{1,\cdots,N\}}

這裏面的p(x1),,p(xN)p(x_1),\cdots,p(x_N)稱爲離散隨機變量的概率分佈,或者分佈,滿足:
n=1Np(xn)=1p(xn)0,n{1,,N}(式5) \sum_{n=1}^{N}p(x_n)=1 \qquad{p(x_n)\ge0,\forall_n\in\{1,\cdots,N\}}\tag{式5}
常見的離散隨機變量的概率分佈有:

(1)伯努利分佈

在一次試驗中,事件AA發生的概率爲μ\mu,則不發生的概率爲:1μ1-\mu。使用XX表示事件AA出現的次數,則XX取值爲0和1,分佈表示如下:
p(x)=μx(1μ)(1x)(式6) p(x)=\mu^x(1-\mu)^{(1-x)}\tag{式6}
如上分佈叫做伯努利分佈,也叫做兩點分佈或者0-1分佈

(2)二項分佈

nn次伯努利試驗中,使用XX表示事件AA出現的次數,則XX取值爲:{0,,N}\{0,\cdots,N\},分佈表示如下:
P(X=k)=CNkμk(1μ)Nkk=0,,N(式7) P(X=k)=C_N^k{\mu^k(1-\mu)^{N-k}}\qquad{k=0,\cdots,N}\tag{式7}
其中,CNkC_N^k表示二項式係數,表示從NN各元素中取出kk個元素,且不考慮其順序的組合的總數。

2.1.2 連續隨機變量

和離散型隨機變量相比,不同之處在於:連續隨機變量XX的取值是不可列舉的,由全部實數或者由一部分區間組成,比如:
X={xaxb},<a<b<(式8) X=\{x\vert{a\le{x}\le{b}\}},\qquad{-\infty<a<b<\infty}\tag{式8}
這樣子就把XX稱之爲連續隨機變量 ,連續隨機變量的取值是不可數及無窮盡的。

連續隨機變量XX的概率分佈一般使用概率密度函數p(x)p(x)來描述,p(x)p(x)可積,滿足:
p(x)dx=1(式9) \int_{-\infty}^{\infty}p(x)dx=1\tag{式9}
常見的連續隨機變量的概率分佈有:

(1)均勻分佈

a,ba,b爲有限的數,[a,b][a,b]上的均勻分佈的概率密度函數定義如下:
p(x)={1baaxb0x<ax>b(式10) p(x)=\begin{cases}\cfrac{1}{b-a}\qquad{a\le{x}\le{b}}\\\quad0\qquad\quad{x<a或者x>b}\end{cases}\tag{式10}

(2)正態分佈

正態分佈也叫做高斯分佈,應用領域很多,概率密度函數如下:
p(x)=12πσexp((xμ)22σ2)(式11) p(x)=\cfrac{1}{\sqrt{2\pi}\sigma}exp(-\cfrac{(x-\mu)^2}{2\sigma^2})\tag{式11}
其中,σ>0\sigma>0,μσ\mu和\sigma均爲常數。如若,隨機變量XX服從一個參數爲$

\mu和\sigma$的概率分佈,則簡記爲:
XN(μ,σ2)(式12) X\thicksim\mathcal{N}(\mu,\sigma^2)\tag{式12}
μ=0,σ=1\mu=0,\sigma=1時,稱爲標準正態分佈

均勻分佈和正態分佈的圖示如下:

在這裏插入圖片描述

2.1.3 累積分佈函數

對於一個隨機變量XX,其累積分佈函數是隨機變量XX的取值小於等於xx的概率。
cdf(x)=P(Xx)(式13) cdf(x)=P(X\le{x})\tag{式13}
以連續隨機變量XX爲例,其累積分佈函數定義如下:
cdf(x)=xp(t)dt(式14) cdf(x)=\int_{-\infty}^{x}p(t)dt\tag{式14}
其中,p(x)p(x)爲概率密度函數,標準正態分佈和累積分佈的概率密度函數如下:

在這裏插入圖片描述

2.2 隨機向量

隨機向量是指一組隨機變量構成的向量。如:X1,X2,,XkX_1,X_2,\cdots,X_kKK個隨機變量,那麼稱X=[X1,X2,,Xk]\boldsymbol{X}=[X_1,X_2,\cdots,X_k]爲一個KK維的隨機向量。一維隨機向量稱爲隨機變量。

隨機向量也分爲:離散隨機向量和連續隨機向量。

2.2.1 離散隨機向量

離散隨機向量的聯合概率分佈爲:
P(X1=x1,X2=x2,,XK=xK)=p(x1,x2,,xK)(式15) P(X_1=x_1,X_2=x_2,\cdots,X_K=x_K)=p(x_1,x_2,\cdots,x_K)\tag{式15}
其中,xkΩkx_k\in{\Omega_k}爲變量XkX_k的取值,Ωk\Omega_k爲變量XkX_k的樣本空間。和離散隨機變量類似有:
p(x1,x2,,xK)0,x1Ω1,x2Ω2,,xKΩK(式16) p(x_1,x_2,\cdots,x_K)\ge0,\qquad{\forall{x_1\in{\Omega_1},x_2\in{\Omega_2},\cdots,x_K\in{\Omega_K}}}\tag{式16}

x1Ω1x2Ω2xKΩKp(x1,x2,,xK)=1(式17) \sum_{x_1\in{\Omega_1}}\sum_{x_2\in\Omega_2}\cdots\sum_{x_K\in{\Omega_K}}p(x_1,x_2,\cdots,x_K)=1\tag{式17}

(1)多項分佈

多項分佈是常見的離散向量概率分佈,多項分佈是二項分佈在隨機向量的推廣。假設一個袋子中裝了很多球,總共有KK個不同的顏色. 我們從袋子中取出NN個球. 每次取出一個球時,就在袋子中放入一個同樣顏色的球. 這樣保證同一顏色的球在不同試驗中被取出的概率是相等的. 令X\boldsymbol{X}爲一個KK維隨機向量,每個元素Xk(k=1,,K)X_k(k=1,\cdots,K)爲取出的NN個球中顏色爲kk的球的數量,則XX服從多項分佈,其概率分佈爲:
p(x1,,xKμ)=N!x1!xK!μ1x1μKxK(式18) p(x_1,\cdots,x_K\vert\boldsymbol{\mu})=\cfrac{N!}{x_1!\cdots{x_K}!}\mu_1^{x_1}\cdots\mu_K^{x_K}\tag{式18}
多項分佈的概率分佈用gamma函數表示如下:
p(x1,,xKμ)=Γ(kxk+1)kΓ(xk+1)k=1Kμkxk(式19) p(x_1,\cdots,x_K\vert\boldsymbol{\mu})=\cfrac{\Gamma(\sum_kx_k+1)}{\prod_k\Gamma(x_k+1)}\prod_{k=1}^{K}\mu_k^{x_k}\tag{式19}

這種形式表示和狄利克雷分佈類似,狄利克雷分佈可以作爲多項分佈的共軛先驗。

0+xα1exdx=Γ(α)(式20) \int_{0}^{+\infty}x^{\alpha-1}e^{-x}dx=\Gamma(\alpha)\tag{式20}

例如:0+x5exdx=Γ(6)\int_{0}^{+\infty}x^{5}e^{-x}dx=\Gamma(6)

2.2.2 連續隨機向量

一個KK維連續隨機向量X\boldsymbol{X}的聯合概率密度函數滿足:
p(x)=p(x1,,xK)0(式21) p(\boldsymbol{x})=p(x_1,\cdots,x_K)\ge0\tag{式21}

++p(x1,,xK)dx1dxK=1(式22) \int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty}p(x_1,\cdots,x_K)dx_1\cdots{dx_K}=1\tag{式22}

(1)多元正態分佈

也叫做多元高斯分佈,如若KK維隨機向量X=[X1,,XK]T\boldsymbol{X}=[X_1,\cdots,X_K]^T服從KK元正態分佈,其密度函數爲:
p(x)=1(2π)n/21/2exp(12(xμ)T1(xμ))(式23) p(\boldsymbol{x})=\cfrac{1}{(2\pi)^{n/2}|\sum|^{1/2}}exp(-\cfrac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T\bold{\sum}^{-1}(\boldsymbol{x}-\boldsymbol{\mu}))\tag{式23}
其中,μRK\boldsymbol{\mu}\in{\mathbb{R}^K}爲多元正態分佈的均值向量,RK×K\boldsymbol{\sum}\in{\mathbb{R}^{K\times{K}}}爲多元正態分佈的協方差矩陣,|\boldsymbol{\sum}|爲行列式。

(2)各項同性高斯分佈

如果一個多元高斯分佈的協方差矩陣簡化爲=σ2I\boldsymbol{\sum}=\sigma^2\boldsymbol{I},即每一個維度隨機變量都獨立而且方差相同。那麼這個多元高斯分佈就稱爲:各項同性高斯分佈。

(3)狄利克雷分佈

一個KK維隨機向量X\boldsymbol{X}的狄利克雷分佈爲:
p(xα)=Γ(α0)Γ(α1)Γ(αk)k=1Kxkαk1(式24) p(\boldsymbol{x}|\boldsymbol{\alpha})=\cfrac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_k)}\prod_{k=1}^{K}x_k^{\alpha_{k-1}}\tag{式24}
其中的α=[α1,,αk]T\boldsymbol{\alpha}=[\alpha_1,\cdots,\alpha_k]^T爲狄利克雷分佈的參數。

2.3 邊際分佈

對於二維離散隨機向量(X,Y)(X,Y),假設XX取值空間爲Ωx\Omega_x,YY取值空間爲Ωy\Omega_y,則其聯合概率分佈滿足:
p(x,y)0,xΩxyΩyp(x,y)=1(式25) p(x,y)\ge0,\qquad{\sum_{x\in\Omega_x}\sum_{y\in{\Omega_y}}p(x,y)=1}\tag{式25}
對於聯合概率分佈p(x,y)p(x,y),分別對xxyy進行求和。

(1)對於固定的xx:
yΩyp(x,y)=p(x)(式26) \sum_{y\in\Omega_y}p(x,y)=p(x)\tag{式26}
(2)對於固定的yy:
xΩxp(x,y)=p(y)(式27) \sum_{x\in\Omega_x}p(x,y)=p(y)\tag{式27}
由於離散隨機向量(X,Y)(X,Y)的聯合概率分佈,對YY的所有值進行求和得到XX的概率分佈,對XX的所有值進行求和得到YY的概率分佈.這裏p(x)p(y)p(x)和p(y)就稱爲p(x,y)p(x,y)邊際分佈

對於二維連續隨機向量(X,Y)(X,Y),其邊際分佈爲:
p(x)=+p(x,y)dy(式28) p(x)=\int_{-\infty}^{+\infty}p(x,y)dy\tag{式28}

p(y)=+p(x,y)dx(式29) p(y)=\int_{-\infty}^{+\infty}p(x,y)dx\tag{式29}

對於一個二元正態分佈的邊際分佈任然爲正態分佈。

2.4 條件概率分佈

對於離散隨機向量(X,Y)(X,Y),已知X=xX=x的條件下,隨機變量Y=yY=y的條件概率爲:
p(yx):=P(Y=yX=x)=p(x,y)p(x)(式30) p(y|x):=P(Y=y|X=x)=\cfrac{p(x,y)}{p(x)}\tag{式30}
上式定義了隨機變量YY關於隨機變量XX的條件概率分佈,簡稱:條件分佈

已知xx:
p(yx)=p(x,y)p(x)(式31) p(y|x)=\cfrac{p(x,y)}{p(x)}\tag{式31}
已知yy:
p(xy)=p(x,y)p(y)(式32) p(x|y)=\cfrac{p(x,y)}{p(y)}\tag{式32}

2.5 貝葉斯定理

通過(31)(32)(式31)和(式32),兩個條件概率p(xy)p(yx)p(x|y)和p(y|x)之間的關係爲:
p(yx)=p(xy)p(y)p(x)(式33) p(y|x)=\cfrac{p(x|y)p(y)}{p(x)}\tag{式33}
這個公式就是貝葉斯定理,或者說是貝葉斯公式。

2.6 獨立與條件獨立

對於兩個離散(或者連續)的隨機變量XYX和Y,如果其聯合概率(或者聯合概率密度函數)滿足:
p(x,y)=p(x)p(y)(式34) p(x,y)=p(x)p(y)\tag{式34}
就稱XYX和Y相互獨立。

對於三個離散(或者連續)隨機變量X,YZX,Y和Z,如果條件概率(或者聯合概率密度函數)p(x,yz)p(x,y|z)滿足:
p(x,yz)=p(xz)p(yz)(式35) p(x,y|z)=p(x|z)p(y|z)\tag{式35}
則稱,在給定變量ZZ時,XYX和Y條件獨立。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章