關於LDA的一些思考

問1:LDA生成一個文檔的過程是什麼樣的?
答1:1)根據預料級參數α,生成文檔d的主題分佈Θ_d~p(Θ|α)
2)對於文檔d中每個位置i對應的單詞,按如下方式生成
2.1)根據主題分佈Θ_d,按概率生成該位置i的主題z_i~p(z|Θ_d)
2.2)根據主題z_i和語料級參數β,按概率生成該位置i的詞w_i~p(z|z_i,β)
3)生成一篇文檔聯合概率爲:p(Θ,Z,W|α,β)=p(Θ|α)*∏p(z_i|Θ)*p(w_i|z_i,β)
  
問2:LDA怎樣使用吉布斯採樣進行模型訓練?
答2:1)隨機初始化:對文檔中每個詞w,隨機分配topic編號z
2)重新掃描語料庫,對每個詞w按照吉布斯採樣公式,按照概率生成新的topic,在語料中進行更新
3)重複以上採樣過程,直到吉布斯採樣收斂
4)統計語料庫的topic-word共現頻率矩陣,該矩陣就是LDA的模型


問3:LDA怎樣使用吉布斯採樣進行模型預測?
答3:1)隨機初始化:對文檔中每個詞w,隨機分配topic編號z
2)重新掃描語料庫,對每個詞w按照吉布斯採樣公式,按照概率生成新的topic,在語料中進行更新
3)重複以上採樣過程,直到吉布斯採樣收斂
4)統計文檔的topic分佈
5)注:模型與測試topic-word共現頻率矩陣不更新


問4:LDA中吉布斯採樣公式是什麼?
答4:1)參數α爲向量,對應每個topic的值爲α_k
2)參數β爲向量,對應每個詞的值爲β_t
3)忽略第m篇文檔中第i個單詞,文檔m屬於主題k的頻次n_m_k定義爲:文檔中主題k的單詞的個數(不包括第i個單詞)
4)忽略第m篇文檔中第i個單詞,主題k下詞t的頻次n_k_t定義爲:主題k下所有文檔中詞t的個數(不包括文檔m中第i個詞)
5)第m篇文檔,第i個單詞,屬於主題k的概率如下:p(z=k|d=m,t=i)∝((n_m_k+α_k)/∑_k(n_m_k+α_k))*((n_k_t+β_t)/∑_t(n_k_t+β_t))
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章