LDA基礎知識系列 ----(1)共軛先驗分佈

理解LDA，可以分爲下述5個步驟：
一個函數：gamma函數
四個分佈：二項分佈、多項分佈、beta分佈、Dirichlet分佈
一個概念和一個理念：共軛先驗和貝葉斯框架
兩個模型：pLSA、LDA
一個採樣：Gibbs採樣

本節以簡單明瞭的敘述方式，講述先驗概率、似然函數、後驗概率、同分布，Beta-Binomial共軛等共軛先驗分佈內容，對必要的推導，講述其注意事項，避免跳“坑”。

本節內容

共軛先驗分佈
先驗概率
似然函數
後驗概率
同分布
Beta-Binomial共軛
轉載請註明：雲南省高校數據化運營管理工程研究中心博客http://write.blog.csdn.net/mdeditor#!postId=78935021

共軛先驗分佈

共軛，顧名思義，兩個及以上的對象，互相牽制、控制。
那在貝葉斯理論裏呢，在已知似然函數情況下（已經有樣本數據了），根據先驗概率函數求後驗概率，問題是：選取什麼樣的先驗分佈，會讓後驗分佈與先驗分佈具有相同的數學形式呢，從這裏提出了共軛分佈理論。
（x爲樣本數據，P(x)就是歸一化因子（聯想全概率 P(x)=∑ni=1P(θi)P(x|θi) ，如果不關心P(θ|x)的具體值，只考察θ取何值時後驗概率P(θ|x)最大，則可將分母省去。）

P (θ | x) = P ( x | θ ) P ( θ ) P ( x ) \propto P (x | θ) P (θ)

在貝葉斯概率理論中，如果後驗概率P(θ|x)和先驗概率p(θ)滿足同樣的分佈律（同分布），那麼，先驗分佈叫作似然函數的共軛先驗分佈，先驗分佈和後驗分佈被叫作共軛分佈。

共軛先驗的好處主要在於代數上的方便性，可以直接給出後驗分佈的封閉形式，否則的話只能數值計算。共軛先驗也有助於獲得關於似然函數如何更新先驗分佈的直觀印象

先驗概率p(θ)

先驗概率（prior probability）通俗來講是指根據以往經驗和分析得到的概率分佈。就比如詢問某高校的男女比例，一個同學回答“3：2”，這個概率很可能就是該同學根據身邊同學的性別比例,得到的一個經驗概率。

似然函數

統計學中，似然函數是一種關於統計模型參數的函數，表示模型參數中的似然性。
計算上：給定輸出x時，關於參數θ的似然函數L(θ|x)（在數值上）等於給定參數θ後數據X的概率：L(θ|x)=P(X=x|θ)。比如拿一枚不確定正反概率的硬幣，三正兩反的似然函數就是：C35p3(1−p)2 （假設正面概率爲P）。
簡單意思就是，把參數設出來，記爲θ，那似然函數就是在參數θ下，樣本事件所發生的概率表述。
但是我們要注意在統計學中，似然和概率又不一樣，概率用於在已知一些參數的情況下，預測接下來的觀測所得到的結果，而似然性則是用於在已知某些觀測所得到的結果時，對有關事物的性質的參數進行估計。
例如，對於“一枚正反對稱的硬幣上拋十次”這種事件，我們可以問硬幣落地時十次都是正面向上的“概率”是多少；而對於“一枚硬幣上拋十次”，我們則可以問，這枚硬幣正反面對稱的“似然”程度是多少。

後驗概率P(θ|x)

在貝葉斯統計中，一個隨機事件或者一個不確定事件的後驗概率是在給出相關證據或數據後所得到的條件概率。在使用貝葉斯定理時，我們通過將先驗概率與似然函數相乘並歸一化，來得到後驗概率分佈，也就是給出某數據，該不確定量的條件分佈。來個例子，計算一下吧:

假設一個學校裏有60%男生和40%女生。女生穿褲子的人數和穿裙子的人數相等，所有男生穿褲子。一個人在遠處隨機看到了一個穿褲子的學生。那麼這個學生是女生的概率是多少？
使用貝葉斯定理，事件A是看到女生，事件B是看到一個穿褲子的學生。我們所要計算的是P(A|B)，分析一下：
P(A)是忽略其它因素，看到女生的先驗概率，在這裏是0.4；
P(A’)是忽略其它因素，看到不是女生（即看到男生）的概率，在這裏是0.6；
P(B|A)是女生穿褲子的概率，在這裏是0.5；
P(B|A’)是男生穿褲子的概率，在這裏是1；
P(B)是忽略其它因素，學生穿褲子的概率， P(B) = P(B|A)P(A) + P(B|A’)P(A’)（利用全概率公式），在這裏是0.5×0.4 + 1×0.6 = 0.8。
根據貝葉斯定理，我們計算出後驗概率P(A|B)：

P (A | B) = P ( A B ) P ( B ) = P ( B | A ) P ( A ) P ( B )

從這裏也可以看出來後驗概率其實也是條件概率。

（爲保證公式的顯示規範，方便及時討論建議至原網頁（雲南省高校數據化運營管理工程研究中心的博客）查看http://write.blog.csdn.net/mdeditor#!postId=78935021）

先驗概率與後驗概率的區別

先驗概率不是根據有關自然狀態的全部資料測定的，而只是利用現有的材料(主要是歷史資料)計算的；後驗概率使用了有關自然狀態更加全面的資料，既有先驗概率資料，也有補充資料；
先驗概率的計算比較簡單，沒有使用貝葉斯公式；而後驗概率的計算，要使用貝葉斯公式，而且在利用樣本資料計算邏輯概率時，還要使用理論概率分佈，需要更多的數理統計知識。

例子整理參考百度百科

同樣的分佈律如何理解？

後驗概率P(θ|x)和先驗概率p(θ)滿足同樣的分佈律（同分布），那麼，先驗分佈和後驗分佈被叫做共軛分佈，在這裏的同分布，是指有相同的概率分佈形式，比如兩枚不均勻硬幣，參數P數值不一樣，但都服從二項分佈，兩個分佈同分布。

本小節內容：Beta-Binomial共軛

Beta-Binomial共軛
在之前的內容中已經解決了：Beta分佈的怎麼來？Beta分佈和Gamma函數的關係，以及Beta分佈的期望，那誰的分佈是Beta分佈呢？
從Bata分佈怎麼來中，我們瞭解了二項分佈和Beta分佈的關係，它們還有那些更緊密的關係呢？
在這裏我們直接引入我們要證明的結論：

二項分佈/伯努利分佈的共軛先驗分佈是Beta分佈。

證明：
1：二項分佈。n爲樣本個數，k爲概率θ 對應事件所發生的次數，二項分佈的似然函數：P(x | θ)=Cknθk(1−θ)n−k
2.先驗分佈（Beta分佈）。θ 先驗分佈假設爲Beta分佈，超參數爲α,β ：

P (θ) = P (θ | α, β) = 1 B ( α , β ) θ α - 1 (1 - θ) β - 1)

注意，

P(θ|α,β) 不是條件概率，表示的爲

P(θ) 超參數是

α,β 。
3.計算後驗分佈：

P (θ | x) = P ( x θ ) P ( θ ) P ( x ) ~ P (x | θ) P (θ | α, β) = C k n θ k (1 - θ) n - k) (1 B ( α , β ) θ α - 1 (1 - θ) β - 1) = C k n B ( α , β ) θ (k + α) - 1 (1 - θ) (n - k + β) - 1) ~ 1 B ( k + α , n - k + β ) θ (k + α) - 1 (1 - θ) (n - k + β) - 1

計算解析：在給定

α,β 的情況下，

B(α,β) 是一個常數，觀察第三個等號後面的式子，對比Bata分佈的概率密度函數：

f (θ) = 1 B ( α , β ) θ α - 1 (1 - θ) β - 1)

觀察係數會發現 ,可根據第三行參數對應的係數進行配湊Bata分佈形式，同時在給定α,β的情況下，B(α,β)是一個常數，所以就可配湊成係數所對應的B(k+α,n-k+β)。所以就得到正比於第四個式子，後驗分佈也是Beta分佈。
經過簡單合併同類項、配湊就證明了後驗分佈和先驗分佈同分布。所以，Beta分佈（對應先驗分佈）是二項分佈（對應似然函數）的共軛先驗分佈。

下一節，LDA基礎知識系列 —-共軛先驗分佈(2)將從Beta分佈出發，水到渠成的講述Dirichlet 分佈和Dirichlet-Multionmial共軛。

雲南省高校數據化運營管理工程研究中心

發佈了53 篇原創文章 · 獲贊 124 · 訪問量 23萬+

私信關注

LDA基礎知識系列 ----(1)共軛先驗分佈

本節以簡單明瞭的敘述方式，講述先驗概率、似然函數、後驗概率、同分布，Beta-Binomial共軛等共軛先驗分佈內容，對必要的推導，講述其注意事項，避免跳“坑”。

本節內容

共軛先驗分佈

先驗概率p(θ)

似然函數

後驗概率P(θ|x)

先驗概率與後驗概率的區別

同樣的分佈律如何理解？

本小節內容：Beta-Binomial共軛

二項分佈/伯努利分佈的共軛先驗分佈是Beta分佈。

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

MCMC抽樣與LDA參數求解

在jupeyter_notebook中編寫內容教程

windows10 安裝mysql 以及遇到的各種問題解決方案

美團點評2018春招自然語言處理方向

神經網絡實現連續型變量的迴歸預測（python)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結