馬爾科夫鏈與吉布斯抽樣

Gibbs抽樣方法是 Markov Chain Monte Carlo（MCMC）方法的一種，也是應用最爲廣泛的一種。wikipedia稱gibbs抽樣爲

　　In statistics and in statistical physics, Gibbs sampling or a Gibbs sampler is a Markov chain Monte Carlo (MCMC) algorithm for obtaining a sequence of observations which are approximately from a specified multivariate probability distribution (i.e. from the joint probability distribution of two or more random variables), when direct sampling is difficult.

　　意思是，在統計學和統計物理學中，gibbs抽樣是馬爾可夫鏈蒙特卡爾理論（MCMC）中用來獲取一系列近似等於指定多維概率分佈（比如2個或者多個隨即變量的聯合概率分佈）觀察樣本的算法。

　　MCMC是用於構建 Markov chain隨機概率分佈的抽樣的一類算法。MCMC有很多算法，其中比較流行的是Metropolis-Hastings Algorithm，Gibbs Sampling是Metropolis-Hastings Algorithm的一種特殊情況。

　　Markov chain 是一組事件的集合，在這個集合中，事件是一個接一個發生的，並且下一個事件的發生，只由當前發生的事件決定。用數學符號表示就是：

　　　　 A={ a₁,a₂ … a_i, a_i+1,… a_t }

　　　　P(a_i+1| a₁,a₂,…a_i) = P(a_i+1| a_i)

　　這裏的a_i不一定是一個數字，它有可能是一個向量，或者一個矩陣，例如我們比較感興趣的問題裏a_i=（g, u, b）這裏g表示基因的效應，u表示環境效應，b表示固定效應，假設我們研究的一個羣體，g，u，b的聯合分佈用π（a）表示。事實上，我們研究QTL，就是要找到π（a），但是有時候π（a）並不是那麼好找的，特別是我們要估計的a的參數的個數多於研究的個體數的時候。用一般的least square往往效果不是那麼好。

解決方案：

　　用一種叫Markov chain Monte Carlo (MCMC)的方法產生Markov chain，產生的Markov chain{a₁,a₂ … a_i, a_i+1,… a_t }具有如下性質：當t 很大時，比如10000，那麼a_t ~ π（a），這樣的話如果我們產生一個markov chain：{a₁,a₂ … a_i, a_i+1,… a₁₀₀₀₀}，那麼我們取後面9000個樣本的平均

a_hat = (g_hat,u_hat,b_hat) = ∑a_i/ 9000 (i=1001,1002, … 10000)

這裏g_hat, u_hat, b_hat 就是基因效應，環境效應，以及固定效應的估計值

　　MCMC算法的關鍵是兩個函數：

1） q（a_i, a_i+1），這個函數決定怎麼基於a_i得到a_i+1

2） α（a_i, a_i+1），這個函數決定得到的a_i+1是否保留

目的是使得a_t的分佈收斂於π（a）

Gibbs Sampling的算法：

一般來說我們通常不知道π（a），但我們可以得到p（g | u , b）,p(u | g , b), p ( b | g, u )即三個變量的posterior distribution

Step1: 給g, u, b 賦初始值：（g₀,u₀,b₀）

Step2: 利用p (g | u₀, b₀) 產生g1

Step3: 利用p (u | g₁, b₀) 產生u1

Step4: 利用p (b | g₁, u₁) 產生b1

Step5: 重複step2~step5 這樣我們就可以得到一個markov chain {a₁,a₂ … a_i, a_i+1,… a_t}

這裏的q（a_i, a_i+1）= p（g | u , b）* p(u | g , b)* p ( b | g, u )

分類: 其他, LDA

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

馬爾科夫鏈與吉布斯抽樣

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

ubuntu安裝Theano+cuda

圖像的論輪廓提取算法與代碼

python與C 聯合編譯

基於能量模型的RBM

馬爾科夫鏈與吉布斯抽樣

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結