LDA -Gibbs抽样

原創

2018-08-27 17:53

LDA的训练有两种，一个是variational inference，一个是Gibbs抽样。
Dirichlet先验，反映到Gibbs抽样方式的训练过程上，可以认为是给隐含主题和词的同现计数加上一个简单的Laplacian平滑(Laplacian平滑就是把所有值都加上一个比较小的数字然后再重新归一化)。而GibbsSampling有一个问题，就是每次采样都需要更新全局信息，基本没有机会做真正意义上的并行化，只能做一个GibbsSampling的近似。
那么若利用MapReduce实现，怎样的近似方法好呢？

斯坦福的ScalaNLP项目值得一看：

http://nlp.stanford.edu/javanlp/scala/scaladoc/scalanlp/cluster/DistributedGibbsLDA$object.html

另外还有NIPS2007的论文：

Distributed Inference for Latent DirichletAllocation http://books.nips.cc/papers/files/nips20/NIPS2007_0672

ICML2008的论文：

Fully Distributed EM for Very Large Datasetshttp://www.cs.berkeley.edu/~jawolfe/pubs/08-icml-em

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

2、TF-IDF和BM25计算文本相似度

這兩者計算的都是文檔和文本之間的相似度，如果是兩個短文本貌似也可以。 1、TF-IDF = TF * IDF 假設文本是“我怎麼這麼帥氣”，4個詞，第一個詞“我”，文檔1中一共有10個詞，“我”有2次，這個詞的詞頻都是2，這

2020-07-05 22:00:39

阿里few shot learning文章的个人理解

先貼結構圖： 1、每次C類，每類K樣本，剩下的是測試集。 2、encoder層是BiLSTM+attention，得到編碼向量，假設隱含層個數是96個，句子長度是30，暫不考慮batch_size，那麼每個字的隱含層就是1*192向量，

2020-07-05 22:00:28

激活函数快速理解

1、sigmoid函數所以啊很明顯，會導

2020-07-05 22:00:28

NLP文本分类入门学习及TextCnn实践笔记——模型训练（三）

這篇記模型訓練。距離第一篇已過去一個月。從學習到正式啓動模型訓練，花了兩週。模型訓練召回率和準確率達到上線標準又花了兩三週。訓練及測試樣本評估的精確率都是97%、98%，結果一到線上實驗，結果慘不忍睹，才明白模型訓練不是那麼簡單的事情

2020-07-04 13:47:13

FastText在商品分类下的应用（第十届服创大赛全国三等奖）

昨天第十屆服務外包創新創業大賽公佈了全國三等獎和晉級決賽的名單，獲得了三等獎。這基本上結束了我個人本科階段的比賽，因爲馬上就要去IBM實習了。這篇文章一方面是對這次比賽進行一個總結，另一方面也是想將FastText的使用給大家介

2020-07-02 03:14:33

基于树模型的lightGBM文本分类

目錄 1、基於TF的關鍵詞提取 2、根據詞頻將文本轉化爲向量 3、基於樹模型的重要特徵選擇 5、完整代碼實現 6、分類結果 1、基於TF的關鍵詞提取使用TF詞頻對訓練集clean_data_train進行關鍵詞提取，選取topK個關鍵詞

2020-06-28 22:26:18

文本转化为向量

假如有一句話"I am a student"。用向量來表示每個單詞，採用one hot 編碼表示方式： I -> [1,0,0,0] am -> [0,1,0,0] a -> [0,0,1,0] student -> [0,0,0

2020-06-27 16:51:00

一行代码自动调参，支持模型压缩指定大小，Facebook升级FastText

轉自：https://mp.weixin.qq.com/s/LLrq1F2uEC2xEWZrd9uijA FastText 作爲一款使用簡單、運行快速的自然語言處理工具，獲得了很多研究者和開發者的喜愛。美中不足的是，FastText 之

想努力的人

2020-06-27 11:32:25

word2vec中的负采样（以CBOW模型为例）

CBOW模型圖輸入詞w（t）的上下文單詞的詞向量（隨機生成），輸入層單詞加和得到了一個跟輸入詞相同維數的向量。對此向量進行相應操作，使得輸出爲w(t)的概率最大。當然輸出層可以用softmax，目標：w(t)的s

今天周一天气晴

2020-06-26 11:22:56

fasttext进行文本分类

https://github.com/facebookresearch/fastText python版本 https://github.com/salestock/fastText.py 這個是非官方的版本　現在已經不在使用了官方提供

光英的记忆

2020-06-24 11:56:31

【文本分类】RCNN模型

RCNN模型也是用於文本分類的常用模型，其源論文爲Recurrent Convolutional Neural Networks for Text Classification。模型整體結構如下：架構主要包括如下模塊：（1

2020-06-21 07:34:55

中文词向量的训练

最近在做畢設，需要對中文進行向量化表示，現有的最全中文詞向量預訓練向量有：最全中文詞向量 part 1:以上鍊接中的詞向量介紹：格式預先訓練好的向量文件是文本格式。每行包含一個單詞和它的向量。每個值由空格分隔。第一行記錄元信息：第一個

2020-06-20 15:24:51

中文词向量学习记录-综述

最近打算準備畢設，所以需要仔細瞭解一下中文詞向量的最近發展，發現一個比較完整的系列文章：參考原文鏈接：https://bamtercelboo.github.io/2018/08/16/chinese_embedding_paper_f

2020-06-20 15:24:51

分类问题集锦及练习

Sklearn 與 TensorFlow 機器學習實用指南 https://hand2st.apachecn.org/#/ 文章目錄一. 分類問題種類二. 評價指標三.分類流程（預處理、分詞、去停用詞、取名詞、特徵提取、特徵加權t

2020-06-20 09:28:03

基于gibbsLDA的文本分类

之前幾篇文章講到了文檔主題模型，但是畢竟我的首要任務還是做分類任務，而涉及主題模型的原因主要是用於text representation，因爲考慮到Topic Model能夠明顯將文檔向量降低維度，當然TopicModel可以做比這更多

2020-06-20 01:48:19

24小時熱門文章

最新文章

最新評論文章