LDA -Gibbs抽樣

原創

2018-08-27 17:53

LDA的訓練有兩種，一個是variational inference，一個是Gibbs抽樣。
Dirichlet先驗，反映到Gibbs抽樣方式的訓練過程上，可以認爲是給隱含主題和詞的同現計數加上一個簡單的Laplacian平滑(Laplacian平滑就是把所有值都加上一個比較小的數字然後再重新歸一化)。而GibbsSampling有一個問題，就是每次採樣都需要更新全局信息，基本沒有機會做真正意義上的並行化，只能做一個GibbsSampling的近似。
那麼若利用MapReduce實現，怎樣的近似方法好呢？

斯坦福的ScalaNLP項目值得一看：

http://nlp.stanford.edu/javanlp/scala/scaladoc/scalanlp/cluster/DistributedGibbsLDA$object.html

另外還有NIPS2007的論文：

Distributed Inference for Latent DirichletAllocation http://books.nips.cc/papers/files/nips20/NIPS2007_0672

ICML2008的論文：

Fully Distributed EM for Very Large Datasetshttp://www.cs.berkeley.edu/~jawolfe/pubs/08-icml-em

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

2、TF-IDF和BM25計算文本相似度

這兩者計算的都是文檔和文本之間的相似度，如果是兩個短文本貌似也可以。 1、TF-IDF = TF * IDF 假設文本是“我怎麼這麼帥氣”，4個詞，第一個詞“我”，文檔1中一共有10個詞，“我”有2次，這個詞的詞頻都是2，這

2020-07-05 22:00:39

阿里few shot learning文章的個人理解

先貼結構圖： 1、每次C類，每類K樣本，剩下的是測試集。 2、encoder層是BiLSTM+attention，得到編碼向量，假設隱含層個數是96個，句子長度是30，暫不考慮batch_size，那麼每個字的隱含層就是1*192向量，

2020-07-05 22:00:28

激活函數快速理解

1、sigmoid函數所以啊很明顯，會導

2020-07-05 22:00:28

NLP文本分類入門學習及TextCnn實踐筆記——模型訓練（三）

這篇記模型訓練。距離第一篇已過去一個月。從學習到正式啓動模型訓練，花了兩週。模型訓練召回率和準確率達到上線標準又花了兩三週。訓練及測試樣本評估的精確率都是97%、98%，結果一到線上實驗，結果慘不忍睹，才明白模型訓練不是那麼簡單的事情

2020-07-04 13:47:13

FastText在商品分類下的應用（第十屆服創大賽全國三等獎）

昨天第十屆服務外包創新創業大賽公佈了全國三等獎和晉級決賽的名單，獲得了三等獎。這基本上結束了我個人本科階段的比賽，因爲馬上就要去IBM實習了。這篇文章一方面是對這次比賽進行一個總結，另一方面也是想將FastText的使用給大家介

2020-07-02 03:14:33

基於樹模型的lightGBM文本分類

目錄 1、基於TF的關鍵詞提取 2、根據詞頻將文本轉化爲向量 3、基於樹模型的重要特徵選擇 5、完整代碼實現 6、分類結果 1、基於TF的關鍵詞提取使用TF詞頻對訓練集clean_data_train進行關鍵詞提取，選取topK個關鍵詞

2020-06-28 22:26:18

文本轉化爲向量

假如有一句話"I am a student"。用向量來表示每個單詞，採用one hot 編碼表示方式： I -> [1,0,0,0] am -> [0,1,0,0] a -> [0,0,1,0] student -> [0,0,0

2020-06-27 16:51:00

一行代碼自動調參，支持模型壓縮指定大小，Facebook升級FastText

轉自：https://mp.weixin.qq.com/s/LLrq1F2uEC2xEWZrd9uijA FastText 作爲一款使用簡單、運行快速的自然語言處理工具，獲得了很多研究者和開發者的喜愛。美中不足的是，FastText 之

想努力的人

2020-06-27 11:32:25

word2vec中的負採樣（以CBOW模型爲例）

CBOW模型圖輸入詞w（t）的上下文單詞的詞向量（隨機生成），輸入層單詞加和得到了一個跟輸入詞相同維數的向量。對此向量進行相應操作，使得輸出爲w(t)的概率最大。當然輸出層可以用softmax，目標：w(t)的s

今天周一天气晴

2020-06-26 11:22:56

fasttext進行文本分類

https://github.com/facebookresearch/fastText python版本 https://github.com/salestock/fastText.py 這個是非官方的版本　現在已經不在使用了官方提供

光英的记忆

2020-06-24 11:56:31

【文本分類】RCNN模型

RCNN模型也是用於文本分類的常用模型，其源論文爲Recurrent Convolutional Neural Networks for Text Classification。模型整體結構如下：架構主要包括如下模塊：（1

2020-06-21 07:34:55

中文詞向量的訓練

最近在做畢設，需要對中文進行向量化表示，現有的最全中文詞向量預訓練向量有：最全中文詞向量 part 1:以上鍊接中的詞向量介紹：格式預先訓練好的向量文件是文本格式。每行包含一個單詞和它的向量。每個值由空格分隔。第一行記錄元信息：第一個

2020-06-20 15:24:51

中文詞向量學習記錄-綜述

最近打算準備畢設，所以需要仔細瞭解一下中文詞向量的最近發展，發現一個比較完整的系列文章：參考原文鏈接：https://bamtercelboo.github.io/2018/08/16/chinese_embedding_paper_f

2020-06-20 15:24:51

分類問題集錦及練習

Sklearn 與 TensorFlow 機器學習實用指南 https://hand2st.apachecn.org/#/ 文章目錄一. 分類問題種類二. 評價指標三.分類流程（預處理、分詞、去停用詞、取名詞、特徵提取、特徵加權t

2020-06-20 09:28:03

基於gibbsLDA的文本分類

之前幾篇文章講到了文檔主題模型，但是畢竟我的首要任務還是做分類任務，而涉及主題模型的原因主要是用於text representation，因爲考慮到Topic Model能夠明顯將文檔向量降低維度，當然TopicModel可以做比這更多

2020-06-20 01:48:19

24小時熱門文章

最新文章

最新評論文章