LDA前言知識

LDA前言知識

在 2003 年（準確地說應該是 2002 年）D. M. Blei1 提出的 LDA（Latent Dirichlet Allocation2）模型（翻譯成中文就是——潛在狄利克雷分配模型），讓主題模型火了起來。
LDA根據給定的一篇文檔，推測其主題分佈。通俗來說，人類根據文檔生成過程寫成了各種各樣的文章，現在人們想讓計算機利用LDA幹一件事：計算機分析推測網絡上各篇文章，分別都寫了些啥主題，且各篇文章中各個主題出現的概率大小（主題分佈）是啥。
LDA 主題模型涉及到貝葉斯理論、Dirichlet 分佈、多項分佈、圖模型、變分推斷、EM 算法、Gibbs 抽樣等知識。LSI、PLSI等也爲主題模型，LDA 是此基礎上的一個突破，它之後也有很多對它進行改進的主題模型。本文主要講解LDA的基礎知識，即一個函數、四個分佈。

一個函數

Gamma分佈作爲先驗分佈很強大，在貝葉斯統計分析中被廣泛的應作其它分佈的先驗。下面我們來看一下Gamma函數。

Gamma函數式：

f (x) = \int + \infty 0 t x e - t d t

性質：

Γ (x + 1) = x Γ (x)

Γ (n) = (n - 1)!

由上我們認識了Gamma函數、知道了其性質。下面我們來看四個分佈。

四個分佈

二項分佈

二項分佈是從伯努利分佈推進的。伯努利分佈，又稱兩點分佈或0-1分佈，是一個離散型的隨機分佈，其中的隨機變量只有兩類取值，非正即負{+，-}。
二項分佈即重複n次的伯努利試驗，記爲x∼ b（n,p）。簡言之，只做一次實驗，是伯努利分佈，重複做了n次，是二項分佈。

二項分佈的概率密度函數爲：
P（K=k）=(nk)pk(1−p)n−k

多項分佈

多項分佈，是二項分佈擴展到多維的情況。多項分佈是指單次試驗中的隨機變量的取值不再是0-1的，而是有多種離散值可能（1,2,3…,k）。
比如投擲6個面的骰子實驗，N次實驗結果服從K=6的多項分佈,其中∑ki=1pi=1 。
多項分佈的概率密度函數爲：
P(x1,x2,...,xk,n,p1,p2,...,pk)=n!x1!x2!...xk!px11px22...pxkk

beta分佈

二項分佈的共軛先驗分佈，在概率論中，beta是指一組定義在（0,1）區間的連續概率分佈，有兩個參數α 和β ，且 α,beta>0 （α 和β 共同控制Beta分佈的函數”長的樣子”：形狀千奇百怪，高低胖瘦）。

隨機變量X服從參數爲的beta分佈通常寫：x∼ Be(α,β)
beta分佈的概率密度函數是：

f (x; α, β) = x α - 1 ( 1 - x ) β - 1 \int 1 0 u α - 1 ( 1 - u ) β - 1 d u

= Γ ( α + β ) Γ ( α ) + Γ ( β ) x α - 1 (1 - x) β - 1

= 1 B ( α , β ) x α - 1 (1 - x) β - 1

其中,B(α,β)=Γ(α+β)Γ(α)+Γ(β) ,Γ(z)=∫+∞0tze−tdt 。

Dirichlet分佈

Dirichlet分佈是beta分佈在高維度上的推廣。其密度函數形式跟beta分佈的密度函數如出一：P(x1,x2,...,xk,n,a1,a2,...,ak)=1B(α)∏ki=1xαi−1i
其中，B(α)=∏ki=1Γ(αi)Γ(∏ki=1αi) ,∑xi=1 。
至此，我們可以看到二項分佈和多項分佈很相似，Beta分佈和Dirichlet 分佈很相似，Beta分佈是二項式分佈的共軛先驗概率分佈，而狄利克雷分佈（Dirichlet分佈）是多項式分佈的共軛先驗概率分佈。
本篇文章學習了LDA的前言知識，後面將一一講解兩個共軛：Bata共軛、Drichlet共軛，兩個抽樣：MCMC、Gibbs抽樣，LDA主題模型。

雲南省高校數據化運營管理工程研究中心

發佈了53 篇原創文章 · 獲贊 124 · 訪問量 23萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

一個函數

Gamma函數式：

四個分佈

二項分佈

多項分佈

beta分佈

Dirichlet分佈

如何使用 JS 判斷用戶是否處於活躍狀態

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

MCMC抽樣與LDA參數求解

在jupeyter_notebook中編寫內容教程

windows10 安裝mysql 以及遇到的各種問題解決方案

美團點評2018春招自然語言處理方向

神經網絡實現連續型變量的迴歸預測（python)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結