关于LDA的一些思考

问1:LDA生成一个文档的过程是什么样的?
答1:1)根据预料级参数α,生成文档d的主题分布Θ_d~p(Θ|α)
2)对于文档d中每个位置i对应的单词,按如下方式生成
2.1)根据主题分布Θ_d,按概率生成该位置i的主题z_i~p(z|Θ_d)
2.2)根据主题z_i和语料级参数β,按概率生成该位置i的词w_i~p(z|z_i,β)
3)生成一篇文档联合概率为:p(Θ,Z,W|α,β)=p(Θ|α)*∏p(z_i|Θ)*p(w_i|z_i,β)
  
问2:LDA怎样使用吉布斯采样进行模型训练?
答2:1)随机初始化:对文档中每个词w,随机分配topic编号z
2)重新扫描语料库,对每个词w按照吉布斯采样公式,按照概率生成新的topic,在语料中进行更新
3)重复以上采样过程,直到吉布斯采样收敛
4)统计语料库的topic-word共现频率矩阵,该矩阵就是LDA的模型


问3:LDA怎样使用吉布斯采样进行模型预测?
答3:1)随机初始化:对文档中每个词w,随机分配topic编号z
2)重新扫描语料库,对每个词w按照吉布斯采样公式,按照概率生成新的topic,在语料中进行更新
3)重复以上采样过程,直到吉布斯采样收敛
4)统计文档的topic分布
5)注:模型与测试topic-word共现频率矩阵不更新


问4:LDA中吉布斯采样公式是什么?
答4:1)参数α为向量,对应每个topic的值为α_k
2)参数β为向量,对应每个词的值为β_t
3)忽略第m篇文档中第i个单词,文档m属于主题k的频次n_m_k定义为:文档中主题k的单词的个数(不包括第i个单词)
4)忽略第m篇文档中第i个单词,主题k下词t的频次n_k_t定义为:主题k下所有文档中词t的个数(不包括文档m中第i个词)
5)第m篇文档,第i个单词,属于主题k的概率如下:p(z=k|d=m,t=i)∝((n_m_k+α_k)/∑_k(n_m_k+α_k))*((n_k_t+β_t)/∑_t(n_k_t+β_t))
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章