LDA前言知識

  在 2003 年(準確地說應該是 2002 年)D. M. Blei1 提出的 LDA(Latent Dirichlet Allocation2)模型(翻譯成中文就是——潛在狄利克雷分配模型),讓主題模型火了起來。
  LDA根據給定的一篇文檔,推測其主題分佈。通俗來說,人類根據文檔生成過程寫成了各種各樣的文章,現在人們想讓計算機利用LDA幹一件事:計算機分析推測網絡上各篇文章,分別都寫了些啥主題,且各篇文章中各個主題出現的概率大小(主題分佈)是啥。
  LDA 主題模型涉及到貝葉斯理論、Dirichlet 分佈、多項分佈、圖模型、變分推斷、EM 算法、Gibbs 抽樣等知識。LSI、PLSI等也爲主題模型,LDA 是此基礎上的一個突破,它之後也有很多對它進行改進的主題模型。本文主要講解LDA的基礎知識,即一個函數、四個分佈。

一個函數

  Gamma分佈作爲先驗分佈很強大,在貝葉斯統計分析中被廣泛的應作其它分佈的先驗。下面我們來看一下Gamma函數。

Gamma函數式:

f(x)=+0txetdt

性質:
Γ(x+1)=xΓ(x)
Γ(n)=(n1)!

由上我們認識了Gamma函數、知道了其性質。下面我們來看四個分佈。

四個分佈

二項分佈

  二項分佈是從伯努利分佈推進的。伯努利分佈,又稱兩點分佈或0-1分佈,是一個離散型的隨機分佈,其中的隨機變量只有兩類取值,非正即負{+,-}。
  二項分佈即重複n次的伯努利試驗,記爲x bn,p 。簡言之,只做一次實驗,是伯努利分佈,重複做了n次,是二項分佈。

二項分佈的概率密度函數爲:
PK=k=(nk)pk(1p)nk

多項分佈

  多項分佈,是二項分佈擴展到多維的情況。多項分佈是指單次試驗中的隨機變量的取值不再是0-1的,而是有多種離散值可能(1,2,3…,k)。
  比如投擲6個面的骰子實驗,N次實驗結果服從K=6的多項分佈,其中ki=1pi=1
多項分佈的概率密度函數爲:
P(x1,x2,...,xk,n,p1,p2,...,pk)=n!x1!x2!...xk!px11px22...pxkk

beta分佈

  二項分佈的共軛先驗分佈,在概率論中,beta是指一組定義在(0,1)區間的連續概率分佈,有兩個參數αβ ,且 α,beta>0αβ 共同控制Beta分佈的函數”長的樣子”:形狀千奇百怪,高低胖瘦)。這裏寫圖片描述

  隨機變量X服從參數爲的beta分佈通常寫:x Be(α,β)
  beta分佈的概率密度函數是:

f(x;α,β)=xα1(1x)β110uα1(1u)β1du

=Γ(α+β)Γ(α)+Γ(β)xα1(1x)β1

=1B(α,β)xα1(1x)β1

其中,B(α,β)=Γ(α+β)Γ(α)+Γ(β) ,Γ(z)=+0tzetdt

Dirichlet分佈

  Dirichlet分佈是beta分佈在高維度上的推廣。其密度函數形式跟beta分佈的密度函數如出一:P(x1,x2,...,xk,n,a1,a2,...,ak)=1B(α)ki=1xαi1i
其中,B(α)=ki=1Γ(αi)Γ(ki=1αi) ,xi=1
  至此,我們可以看到二項分佈和多項分佈很相似,Beta分佈和Dirichlet 分佈很相似,Beta分佈是二項式分佈的共軛先驗概率分佈,而狄利克雷分佈(Dirichlet分佈)是多項式分佈的共軛先驗概率分佈 。
本篇文章學習了LDA的前言知識,後面將一一講解兩個共軛:Bata共軛、Drichlet共軛,兩個抽樣:MCMC、Gibbs抽樣,LDA主題模型。

發佈了53 篇原創文章 · 獲贊 124 · 訪問量 23萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章