Dirielect process notes

本篇博客旨在翻譯《dirichlet process》下面是個人翻譯結果,0.0版本,不建議看,大神勿噴。

Dirichlet Process

介紹

DP是一個分佈的分佈,一般來說,分佈是我們定義在數字上的一些分類(例如實數,非負數等),所以一開始我們看到分佈的分佈會覺得很意外,
如果你在這一個觀點上有這種感覺的話,一個明顯的但是可靠的事實就是,我們更喜歡指出,概率論依然適用於這些對象。
然而意外是因爲你第一次看到。所以,很快我們就會看到,在關於他們像什麼沒有清晰的感覺的前提下,獲得這些對象的可觀察屬性是可行的。
    假設G是一個在測度空間theta上的概率分佈(如果你覺得很學術,那麼你可以認爲G是在實數0-1之間的一個映射,這個映射是theta的一個概率子集)。
    現在G是一個在theta上的概率分佈,DP是一個在所有這樣的分佈上的分佈,DP是一個通過concentration parameter α和base measure H來參數化的過程。
    簡單的說一些東西是一個其他東西上的分佈是很勉強的(對比:正態分佈是一個在實數上的分佈)我們現在知道這個分佈的一些屬性。所以他就意味着說G是一個通過帶有參數alpha和H參數的DP
    或者更形象的說G~DP(alpha,H),這個分佈的意思如下:
    (G(T1), G(T2), . . . , G(TK)) ~ Dirichlet(αH(T1), αH(T2), . . . , αH(TK))  (k是下標)

對於theta上任意有限的劃分(T1,T2,T3....TK),或者在英語中,G的概率服從於任意有限的theta劃分,這個劃分是依從參數爲αH(T2), . . . , αH(TK))的dirichlet分佈(不是DP)。
這個含蓄的定義或許太抽象,但是我們將從一個簡短的DP中獲得更多的有益的特性,對於現在,在第一段提到的概率,這裏的DP有一些重要的屬性
即使在關於DP長什麼樣沒有絲毫概念的因素下,你任然可以通過使用基礎的概率理論導出這些屬性。這些屬性完全依從公式1和狄利克雷分佈的屬性。
證明他們即使你對DP到底是什麼東西沒有固定的直觀概念。這是很有益的。
均值:DP的均值是他的base measure:E[G] = H,或者相當於E[G(T)] = H(T) 對於任意的T屬於theta,平均而言,從DP中抽取的分佈和H類似

後驗概率:If G ∼ DP(α, H) 並且 θ1, … , θN ∼ G,G的後驗任然是一個DP,

    G|θ1, . . . , θN ~ DP(α + N, 1/(α + N)(αH(θ) + sigma(δ(θ = θi)))
其中,δ(θ = θi)是一個集中在thetai中的delta函數,換句話說,DP是一個在可測空間theta上的任意共軛先驗分佈。
導出下面的屬性需要一些複雜的數學,但是他們都依靠建設性的想法並且有一些假設或者物理類比法與其相關聯。希望能幫助您建立一些DP的直觀感受。

posterior predictive distribution(後驗預測分佈)

什麼是後驗預測分佈呢?換句話說,if G ∼ DP(α, H) and θ1, . . . , θN ∼ G,什麼是新item的後驗預測分佈: 
是p(θN+1|θ1, . . . , θN) = INTEGRAL(p(θN+1|G)p(G|θ1, . . . , θN))dG????
爲了回答這個問題,想象你產生了一個有限的序列, {θi}∞ i=1 (with θi ∈ Θ ),產生過程如下:
θ1 ~ H
θN+1|θ1, . . . , θN ~ GN(θN+1) = αH(θN+1) + PN i=1 δ(θN+1 = θi)/(α + N) 
(這個物理類比於他的結構相詳細起來的是如下的推斷)假設從缸中抽取不同顏色的球,叫做缸G, thetaI代表了抽取到的i_th個顏色的球。
對於每一個抽取到的球,你將其放回,並且加一個相同顏色的球到缸中,注意,這就引起了“富人越富”的現象在缸內不同顏色球的序列中。當你抽取越來越多的相同顏色的球
那就變成了越來越像重複的抽取這一種顏色的球。即使添加了多樣性,你依然會偶爾抽取不同的球從缸中,H,放回並且加了一個相同顏色的球道原來的缸G中。
這就是所有的關於如何做DP的後驗測度分配麼?這個被證明了,如果你連續的處理這個在公式3-4中描述的無限可加,Gn將會收斂到隨機離散分佈G這個分佈它本身是依據DP(alpha, H)的
GN → G ∼ DP(α, H) (n->MAX)
此外, 樣本{θi}構成的樣本是來自隨機限制分佈G中的,並且公式[4] 給定新的觀測值一個後驗測度分佈
θN+1: p(θN+1|θ1, . . . , θN) = p(θN+1|G)p(G|θ1, . . . , θN)dG
因此,這個結構給了你一個DP的後驗測度分佈

中國餐館問題(CRP)

 polya缸組合讓DP變得很清晰,一個DP加在聚類結構在觀察的thetaI上,這有一個嚴格正概率,兩個球從缸中抽取,,或許有相同的顏色,因此觀測到的球,或者是在polya序列中的球,可以根據他們的眼神分類。CRP是這個聚結構很明確。更特別的,
我們用整數索引明顯差異顏色的球在polya缸序列中。使用Ci標示第i個被抽取球顏色下標,記,入股兩個球i,j有相同的顏色,那麼Ci = Cj,也記:Ci是不同於屬於theta的thetaI和thetaJ的,他們是球的顏色,Ci是顏色的整數下標,假設你抽取了N個球,並且有K個不同顏色的,那麼這個服從於公式[4]:
p(cN+1|c1, . . . , cN) = [α/(α + N)] δ(cN+1 = K + 1) + sigma([nk/(α + N)] *δ(cN+1 = k))
其中nk是下標爲k的球個數(理解公式6是怎麼從4中來的),所以,下一個球的顏色不會與已經存在的球顏色相同。或者是一個新的顏色不會再開始出現的K歌顏色之間(概率比例alpha)。
因此CRP是一個簡單的polya缸組合推論。但是,這個統計不得不給其一個新的完全的隱喻。通過這個隱喻,顧名思義,你可以想象成一箇中國餐館中有有限個桌子,每個桌子有有限個座位,當N+1個顧客來的時候,他也會坐在K個桌子中的一個,但是會根據每一個桌子上的人的概率比例來選擇坐在哪一個上,nk。或者根據alpha的根據概率比例,他會坐在一個新的桌子上,這個桌子(K+1)目前沒人坐。
這個過程的重點在於,它證明是爲CRP提供了一個非常好的解釋,當在推導混合狄利克雷過程的時候。

Stick-breaking construction :

我們還不清楚什麼事隨機從DP中抽取,我們將有一個非常清晰的想法一旦我們學習了Stick-breaking construction。
所以,假設你生成了一個有限的權重序列{πk},(k-(1,MAX)),通過下面的步驟。
βk ~ Beta(1, α)
πk = βk Accumulate(1 − βl) (l-(1-k-1))
有限的權重序列 π = {πk}的生成被稱作分佈通過一個GEM過程,這個過程集中帶有參數alpha,(pie ~ GEM(alpha)),現在考慮下下面的離散隨機概率分佈:
G(θ) =sigma(πkδ(θ = ζk)) k->(1,MAX) where ζk ~ H
這個可以展示G~DP(alp, H),更多的。所有從DP中抽取出來的可以被作爲公式[9]解釋。物理類比於公式7-8聯繫起來,是一個連續的b對一個單元長度reaking-stick
你首先break 一個隨機比例beta1,這一塊的長度給了你第一個權重pie1,然後,你break掉剩餘的stick中隨機比例beta2,第二個長度作爲第二個權重pie2,以此下去。
注意當K變得很大的時候,stick的長度,或者是權重,將會變得很小很小。對於一個很小的alpha,僅僅只有前幾個stick長度有有意義的長度,剩餘的stick將有一個很小的長度。
另一方面,對於很大的alpha,stick的長度將會趨向於更均衡化。這個可以通過E[βk] = 1/(1 + α) 得到。因此,對於很小的alpha,隨機break比例betaK,將會變得很大,並且總體stick的長度會消耗的很快。然而對於大的alpha,這個比例會趨於很小,並且對於總體的stick將會花很長的時間來消耗殆盡。
我們現在知道DP,他們都像一個公式[9]中有限的離散的分佈。事實上,我們還可以畫出他們。圖一顯示了隨機從DP中抽取,在不同的參數alpha,H。
H決定了原子ηk將會在哪裏被找到。就像在上一章中講到的,alpha控制了原子分佈的權重,越小的alpha導致越離散的權重分佈。

Dirichlet process mixture models

我們在什麼地方會用到DP 呢?他只是一個理論還是在什麼練習中會用到呢?DP的一個主要應用是在上下文混合模型中。
在上下午環境中,DP分佈的離散隨機測度被用作混合模型中作爲有混合成分參數的先驗。這個模型的結果被稱爲DPMM,首先,讓我們來描述一下DPMM數學定義:
G ~ DP(α, H) (10)
θi|G ~ G (11)  (11)
xi|θi ~ F(θi)  (12)
其中Xi是我們觀察的變量,或者是我們希望建模的數據,theta是混合組成的參數,xi屬於這個成分,F代表了混合成分的分佈(例如高斯在混合高斯)。thetai可以是一個單一參數,就像高斯成分在一個混合的高斯中的均值,
或者是一個多維向量參數,例如高斯成分在一個混合高斯中的均值和精度。注意,當兩個數據指向xi,xj,屬於相同的成分,他們成分的參數將會完全相同。
發佈了57 篇原創文章 · 獲贊 108 · 訪問量 19萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章