LDA主題模型之基礎數學知識

二項分佈和Beta分佈

二項分佈

隨機變量X 服從二項分佈,寫作XBin(n,p) ,它的概率質量函數爲:

P(X=k)=(nk)pk(1p)nk

例如有一位NBA球員,他的命中率是0.55,現在他投了6次,那麼他命中2次的概率是(62)0.552(10.55)62=0.19

Beta分佈

Beta分佈被用來描述概率的概率。

XBeta(α,β)

f(x)=xα1(1x)β101uα1(1u)β1du,x[0,1]

期望E(X)=αα+β

假如我們這個NBA球員上一賽季的命中率是0.55,我們想預測他當前賽季的命中率。本來命中率就是一個概率,現在我們把它當做自變量,這也就是爲什麼Beta分佈描述的是概率的概率。

現在賽季剛開始,他投了3個球,然後都沒中,如果我們直接預測他的命中率p=0/3=0 ,這貌似就有點不太合理了,比較合理的是利用他上一賽季的命中率信息(這在統計學中也叫做先驗)。

這裏就可以用到Beta分佈了,設α=55,β=45 ,求得期望E(X)=0.55 ,這樣就用到了他上一賽季的信息,這樣一開始他的命中率大概是0.55。

當他投了3個球,0中,那就是α+0=55,β+3=48 ,求得期望E(X)=0.53 ,現在就可以預測他的命中率大概是0.53。

當他投了100個球,60中,那就是α+60=115,β+40=85 ,求得期望E(X)=0.575 ,現在就可以預測他的命中率大概是0.575了。

可以發現,利用了Beta分佈之後,可以隨着比賽進行,不斷更新他的命中率預測。

多項式分佈和Dirichlet分佈

多項式分佈

多項式分佈是二項分佈從二維向多維的拓展,XMul(n,p1,p2,...,pm)

P(X1=k1,...,Xm=km)=n!k1!km!p1k1pmkm,i=1mki=n

還是那個NBA球員的例子,如果他的投籃命中率是0.55,打鐵率0.25,空炮率0.2(這裏可能女生有點沒概念,打鐵也就是碰到籃筐但沒中,空炮也就是Air Ball,籃筐、籃板、籃網都沒碰到,我們這裏將命中打鐵之外的都當做空炮),他投了6次,那其中2次命中,3次打鐵,1次空炮的概率是:6!2!3!1!0.5520.2530.21=0.06

狄利克雷分佈

狄利克雷分佈是Beta分佈從二維向多維的拓展,XDir(α1,,αm)

f(x1,,xm)=i=1mxiαi10101i=1muiαi1du1dum

其中分母是一個多重積分,xi[0,1]i=1mxi=1

期望E(X)=(α1i=1mαi,αii=1mαi,,αmi=1mαi)

我們可以發現,狄利克雷分佈的概率密度函數是一個多元函數,每個自變量的取值範圍都是[0,1]。

還是以那個NBA球星作爲例子,假設他上一個賽季出手投籃共100次(命中55次,打鐵25次,空炮20次),我們設α1=55,α2=25,α3=20

他投了10次(命中8,打鐵1,空炮1),預測他的命中率,打鐵率,空炮率分別爲:

x1=55+8(55+8)+(25+1)+(20+1)=0.57x2=25+1(55+8)+(25+1)+(20+1)=0.23x3=20+1(55+8)+(25+1)+(20+1)=0.20

Gibbs Sampling

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章