在 2003 年(準確地說應該是 2002 年)D. M. Blei1 提出的 LDA(Latent Dirichlet Allocation2)模型(翻譯成中文就是——潛在狄利克雷分配模型),讓主題模型火了起來。
LDA根據給定的一篇文檔,推測其主題分佈。通俗來說,人類根據文檔生成過程寫成了各種各樣的文章,現在人們想讓計算機利用LDA幹一件事:計算機分析推測網絡上各篇文章,分別都寫了些啥主題,且各篇文章中各個主題出現的概率大小(主題分佈)是啥。
LDA 主題模型涉及到貝葉斯理論、Dirichlet 分佈、多項分佈、圖模型、變分推斷、EM 算法、Gibbs 抽樣等知識。LSI、PLSI等也爲主題模型,LDA 是此基礎上的一個突破,它之後也有很多對它進行改進的主題模型。本文主要講解LDA的基礎知識,即一個函數、四個分佈。
一個函數
Gamma分佈作爲先驗分佈很強大,在貝葉斯統計分析中被廣泛的應作其它分佈的先驗。下面我們來看一下Gamma函數。
Gamma函數式:
性質:
由上我們認識了Gamma函數、知道了其性質。下面我們來看四個分佈。
四個分佈
二項分佈
二項分佈是從伯努利分佈推進的。伯努利分佈,又稱兩點分佈或0-1分佈,是一個離散型的隨機分佈,其中的隨機變量只有兩類取值,非正即負{+,-}。
二項分佈即重複n次的伯努利試驗,記爲
二項分佈的概率密度函數爲:
多項分佈
多項分佈,是二項分佈擴展到多維的情況。多項分佈是指單次試驗中的隨機變量的取值不再是0-1的,而是有多種離散值可能(1,2,3…,k)。
比如投擲6個面的骰子實驗,N次實驗結果服從K=6的多項分佈,其中
多項分佈的概率密度函數爲:
beta分佈
二項分佈的共軛先驗分佈,在概率論中,beta是指一組定義在(0,1)區間的連續概率分佈,有兩個參數
隨機變量X服從參數爲的beta分佈通常寫:
beta分佈的概率密度函數是:
其中,
Dirichlet分佈
Dirichlet分佈是beta分佈在高維度上的推廣。其密度函數形式跟beta分佈的密度函數如出一:
其中,
至此,我們可以看到二項分佈和多項分佈很相似,Beta分佈和Dirichlet 分佈很相似,Beta分佈是二項式分佈的共軛先驗概率分佈,而狄利克雷分佈(Dirichlet分佈)是多項式分佈的共軛先驗概率分佈 。
本篇文章學習了LDA的前言知識,後面將一一講解兩個共軛:Bata共軛、Drichlet共軛,兩個抽樣:MCMC、Gibbs抽樣,LDA主題模型。