貝葉斯網絡參數學習

參考:

https://zhuanlan.zhihu.com/p/355765619

https://zhuanlan.zhihu.com/p/61593112

貝葉斯網絡參數學習(實質上是在已知網絡結構的條件下,來學習每個節點的概率分佈表

如前所述,一個貝葉斯網絡包含定性和定量兩個方面的內容:定性內容包括變量之間的網絡結構;定量內容則包括各變量的概率分佈.貝葉斯網絡參數學習的目標是:給定網絡拓撲結構G 和訓練樣本集D,利用先驗知識,確定貝葉斯網絡模型各節點處的條件概率分佈.一般,先驗分佈服從一定的概率分佈族,如 β分佈、多項分佈、正態分佈、泊松分佈;然後利用一定的策略估計這些分佈的參數.由於貝葉斯網絡主要處理的是離散變量,對連續變量要經過一定的離散化處理,而離散變量又以 β 分佈和多項分佈最爲常見,如在自然語言處理、圖像識別和信息檢索等應用中,這兩種分佈形式都受到普遍的青睞.下面我們主要介紹這兩種分佈:對於定義在[0,1]之間的變量的概率分佈,存在一個離散的樣本空間,如果變量具有兩個狀態,那麼它服從 β 分佈;如果變量具有兩個以上的狀態,那麼它服從多項 Dirichlet 分佈.

 

1、極大似然估計

極大似然估計是典型的頻率學派觀點,它的基本思想是:待估計參數 [公式] 是客觀存在的,只是未知而已,當 [公式] 滿足“ [公式] 時,該組觀測樣本 [公式] 更容易被觀測到“,我們就說 [公式][公式] 的極大似然估計值。也即,估計值 [公式] 使得事件發生的可能性最大。

下面給出極大似然估計的數學描述:

[公式]

最大似然估計 完全基於數據,不需要先驗概率

2、貝葉斯估計

貝葉斯估計是典型的貝葉斯學派觀點,它的基本思想是:待估計參數 [公式] 也是隨機的,和一般隨機變量沒有本質區別,因此只能根據觀測樣本估計參數 [公式] 的分佈。

貝葉斯估計利用了貝葉斯公式,給出貝葉斯公式的數學描述:

[公式]

下面給出貝葉斯估計的數學描述:

[公式]

其中, [公式] 爲參數 [公式] 的先驗分佈(prior distribution),表示對參數 [公式] 的主觀認識,是非樣本信息, [公式] 爲參數 [公式] 的後驗分佈(posterior distribution)。因此,貝葉斯估計可以看作是,在假定 [公式] 服從 [公式] 的先驗分佈前提下,根據樣本信息去校正先驗分佈,得到後驗分佈 [公式] 。由於後驗分佈是一個條件分佈,通常我們取後驗分佈的期望作爲參數的估計值。

貝葉斯估計 假定在考慮數據之前,網絡參數服從某個先驗分佈。先驗的主觀概率,它的影響隨着數據量的增大而減小 一般假設參數是服從狄利克雷(Dirichlet)

 

2.1、最大後驗估計

在貝葉斯估計中,如果我們採用極大似然估計的思想,考慮後驗分佈極大化而求解 [公式] ,就變成了最大後驗估計(Maximum A Posteriori estimation,MAP):

[公式]

由於 [公式][公式] 無關,因此簡化了計算。

作爲貝葉斯估計的一種近似解,MAP有其存在的價值,因爲貝葉斯估計中後驗分佈的計算往往是非常棘手的;而且,MAP並非簡單地回到極大似然估計,它依然利用了來自先驗的信息,這些信息無法從觀測樣本獲得。

對上面的式子稍作處理:

[公式]

如果將機器學習結構風險中的正則化項對應爲上式的 [公式] ,那麼帶有正則化項的最大似然學習就可以被解釋爲MAP。當然,這並不是總是正確的,例如,有些正則化項可能不是一個概率分佈的對數,還有些正則化項依賴於數據,當然也不會是一個先驗概率分佈。不過,MAP提供了一個直觀的方法來設計複雜但可解釋的正則化項,例如,更復雜的懲罰項可以通過混合高斯分佈作爲先驗得到,而不是一個單獨的高斯分佈。

2.2、共軛先驗

在貝葉斯估計中,如果選取先驗分佈 [公式] ,使得後驗分佈 [公式][公式] 屬於同一分佈簇(即共軛分佈),則稱 [公式] 爲似然函數 [公式] 的共軛先驗。

共軛先驗的選取有如下好處:a).符合直觀,先驗分佈和後驗分佈應該是相同形式的;b).可以給出後驗分佈的解析形式;c).可以形成一個先驗鏈,即現在的後驗分佈可以作爲下一次計算的先驗分佈,如果形式相同,就可以形成一個鏈條。

常見的共軛先驗有:Beta分佈(二項分佈)、Dirichlet分佈(多項分佈)。

很顯然,共軛先驗的選取很大程度上是基於數學理論的方便性,帶有很強的主觀色彩,而這也是飽受頻率學派詬病的一點。頻率學派認爲,只有在先驗分佈有一種不依賴主觀的意義,且能根據適當的理論或以往的經驗決定時,才允許在統計推斷中使用先驗分佈,否則就會喪失客觀性。關於這些,讀者可自行了解。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章