關於LDA的一些思考

原創

2020-07-07 00:04

問1：LDA生成一個文檔的過程是什麼樣的？
答1：1）根據預料級參數α，生成文檔d的主題分佈Θ_d~p(Θ|α)
2）對於文檔d中每個位置i對應的單詞，按如下方式生成
2.1）根據主題分佈Θ_d，按概率生成該位置i的主題z_i~p(z|Θ_d)
2.2）根據主題z_i和語料級參數β，按概率生成該位置i的詞w_i~p(z|z_i,β)
3）生成一篇文檔聯合概率爲：p(Θ,Z,W|α,β)=p(Θ|α)*∏p(z_i|Θ)*p(w_i|z_i,β)

問2：LDA怎樣使用吉布斯採樣進行模型訓練？
答2：1）隨機初始化：對文檔中每個詞w，隨機分配topic編號z
2）重新掃描語料庫，對每個詞w按照吉布斯採樣公式，按照概率生成新的topic，在語料中進行更新
3）重複以上採樣過程，直到吉布斯採樣收斂
4）統計語料庫的topic-word共現頻率矩陣，該矩陣就是LDA的模型

問3：LDA怎樣使用吉布斯採樣進行模型預測？
答3：1）隨機初始化：對文檔中每個詞w，隨機分配topic編號z
2）重新掃描語料庫，對每個詞w按照吉布斯採樣公式，按照概率生成新的topic，在語料中進行更新
3）重複以上採樣過程，直到吉布斯採樣收斂
4）統計文檔的topic分佈
5）注：模型與測試topic-word共現頻率矩陣不更新

問4：LDA中吉布斯採樣公式是什麼？
答4：1）參數α爲向量，對應每個topic的值爲α_k
2）參數β爲向量，對應每個詞的值爲β_t
3）忽略第m篇文檔中第i個單詞，文檔m屬於主題k的頻次n_m_k定義爲：文檔中主題k的單詞的個數（不包括第i個單詞）
4）忽略第m篇文檔中第i個單詞，主題k下詞t的頻次n_k_t定義爲：主題k下所有文檔中詞t的個數（不包括文檔m中第i個詞）
5）第m篇文檔，第i個單詞，屬於主題k的概率如下：p(z=k|d=m,t=i)∝((n_m_k+α_k)/∑_k(n_m_k+α_k))*((n_k_t+β_t)/∑_t(n_k_t+β_t))

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

關於LDA的一些思考

linux安裝cuda和cudnn

模擬手機設備：使用 Playwright 實現移動端自動化測試

Mellanox網卡開啓SR-IOV

全面系統的AI學習路徑，幫助普通人也能玩轉AI

uni-app實現上拉加載

vue3編譯優化之“靜態提升”

又是一個月-20240513

flask 如何保證返回json有序

linux服務器設置ssh免密

HTML 00 Tutorial

推薦算法中的相似度計算

人工智能架構

推薦系統的初體驗（關聯規則，協同過濾）

TensorFlow學習（四）：梯度帶(GradientTape)，優化器(Optimizer)和損失函數(losses)

關於LDA的一些思考

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結