二項分佈和Beta分佈
二項分佈
隨機變量X 服從二項分佈,寫作X∼Bin(n,p) ,它的概率質量函數爲:
P(X=k)=(nk)pk(1−p)n−k
例如有一位NBA球員,他的命中率是0.55,現在他投了6次,那麼他命中2次的概率是(62)0.552(1−0.55)6−2=0.19 。
Beta分佈
Beta分佈被用來描述概率的概率。
X∼Beta(α,β) :
f(x)=xα−1(1−x)β−1∫10uα−1(1−u)β−1du,x∈[0,1]
期望E(X)=αα+β 。
假如我們這個NBA球員上一賽季的命中率是0.55,我們想預測他當前賽季的命中率。本來命中率就是一個概率,現在我們把它當做自變量,這也就是爲什麼Beta分佈描述的是概率的概率。
現在賽季剛開始,他投了3個球,然後都沒中,如果我們直接預測他的命中率p=0/3=0 ,這貌似就有點不太合理了,比較合理的是利用他上一賽季的命中率信息(這在統計學中也叫做先驗)。
這裏就可以用到Beta分佈了,設α=55,β=45 ,求得期望E(X)=0.55 ,這樣就用到了他上一賽季的信息,這樣一開始他的命中率大概是0.55。
當他投了3個球,0中,那就是α+0=55,β+3=48 ,求得期望E(X)=0.53 ,現在就可以預測他的命中率大概是0.53。
當他投了100個球,60中,那就是α+60=115,β+40=85 ,求得期望E(X)=0.575 ,現在就可以預測他的命中率大概是0.575了。
可以發現,利用了Beta分佈之後,可以隨着比賽進行,不斷更新他的命中率預測。
多項式分佈和Dirichlet分佈
多項式分佈
多項式分佈是二項分佈從二維向多維的拓展,X∼Mul(n,p1,p2,...,pm) :
P(X1=k1,...,Xm=km)=n!k1!⋯km!pk11⋯pkmm,∑i=1mki=n
還是那個NBA球員的例子,如果他的投籃命中率是0.55,打鐵率0.25,空炮率0.2(這裏可能女生有點沒概念,打鐵也就是碰到籃筐但沒中,空炮也就是Air Ball,籃筐、籃板、籃網都沒碰到,我們這裏將命中打鐵之外的都當做空炮),他投了6次,那其中2次命中,3次打鐵,1次空炮的概率是:6!2!⋅3!⋅1!⋅0.552⋅0.253⋅0.21=0.06 。
狄利克雷分佈
狄利克雷分佈是Beta分佈從二維向多維的拓展,X∼Dir(α1,⋯,αm) :
f(x1,⋯,xm)=∏mi=1xαi−1i∫10⋯∫10∏mi=1uαi−1idu1⋯dum
其中分母是一個多重積分,∀xi∈[0,1] , ∑mi=1xi=1 。
期望E(X)=(α1∑mi=1αi,αi∑mi=1αi,⋯,αm∑mi=1αi) 。
我們可以發現,狄利克雷分佈的概率密度函數是一個多元函數,每個自變量的取值範圍都是[0,1]。
還是以那個NBA球星作爲例子,假設他上一個賽季出手投籃共100次(命中55次,打鐵25次,空炮20次),我們設α1=55,α2=25,α3=20 。
他投了10次(命中8,打鐵1,空炮1),預測他的命中率,打鐵率,空炮率分別爲:
x1=55+8(55+8)+(25+1)+(20+1)=0.57x2=25+1(55+8)+(25+1)+(20+1)=0.23x3=20+1(55+8)+(25+1)+(20+1)=0.20
Gibbs Sampling