LDA中Gibbs採樣算法和並行化

原創

着凉的石头

2020-06-16 15:44

最近在用topic model跑一些數據，算法採用了LDA和PLSA進行對比，由於數據量稍大，採用了LDA的並行化版本，對其並行化方法很感興趣，查看了相關資料後先總結如下，有時間可以繼續琢磨。Gibbs Sampling用來逼近LDA中的隱式變量，是一種較爲簡單的實現方式。

Gibbs 方法

傳統的實現方法是串行的，主要流程如下：

步驟4中，每一個word都需要對全局進行更新，很容易造成網絡擁堵，是並行化主要優化的地方，一種並行化方案如下：

上面的方法一方面可以進行異步網絡傳輸，另一方面設置cache進行批量更新可以減少同步帶來的加鎖操作。

在採用的LDA並行化版本里面，基本是採用方法二的思路進行優化，即用MPI集羣的多個計算節點分別進行計算部分文檔集合，在每臺計算節點，採用多線程的方法進行加速，在每臺計算節點計算完成之後，更新全局的p(word|topic)，然後進行下一輪的迭代。在程序運行的過程中發現在單臺計算節點採用多線程的方法不一定能提高效率，甚至會降低運行速度，需要進一步觀察和實驗。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

C語言實現的json解析程序

只有一個頭文件和一個源文件，僅使用C語言標準庫。作用就是讀取json文件，然後解析爲若干個互相關聯的結構，結構如下： typedef enum json_st { djson_string = 1, djson_number,

2020-07-08 10:35:53

Pytorch垃圾分類搭建CNN模型中遇到的坑

背景就是利用pytorch進行圖形分類處理，採用的是cnn算法，在使用過程中碰到了一些小麻煩。 1、在對圖片進行壓縮時的報錯，報錯形式爲： raise ValueError("empty range for randrange() (%

2020-07-08 09:59:08

項目中權限分配使用到的位運算

原因：某一模塊的權限太多，如對客戶的權限，增刪改查就是四個權限，就是四個權限字符串與之對應。解決方案：增 2 ，刪 4 ，改 8 查 16 對應二進制爲 2：10 4：100 8：1000 16：10000

2020-07-08 09:13:30

Maven相關問題彙總

maven中的${project.groupId} 和 ${project.version} 表示當前項目的groupId和版本。

2020-07-08 09:13:30

重學計算機基礎計劃

大學畢業一年、高中畢業五年矣。大學所學，幾近忘光，愧對老師們曾經的教導，於是突發奇想，想重新學習計算機基礎，並寫blog以此鞭策自己。重學的計算機基礎內容包括但不限於以下內容： 1. 數據結構與算法 2. 編程語言 3. 操作系統 4.

2020-07-08 06:15:20

ElasticSearch使用教程四(ElasticSearch查詢詳解)

一、簡介說明注意：以下命令都是使用sense測試(ElasticSearch第二步-CRUD之Sense)，且數據都已經使用過IK分詞。以下測試數據來源於文檔(db_test/person) 需要注意的是下面的id是文檔的ID，

2020-07-08 04:10:56

143. Reorder List學習

143. Reorder List Total Accepted: 71015 Total Submissions: 301125 Difficulty: Medium Given a singly linke

2020-07-08 04:10:45

SpringBoot項目部署到linux服務器

進行了這麼長時間SpringBoot項目開發，今天想系統的總結一下項目部署到linux服務器的流程，並在上一篇介紹了linux環境的準備與搭建，SpringBoot項目部署到linux服務器之環境搭建，這篇記錄一下從git上拉取項

2020-07-08 02:35:43

SpringCloud Stream 整合 RabbitMQ-消費失敗後重試

上一篇完成SpringCloud Stream整合RabbitMQ： SpringCloud Stream整合RabbitMQ，沒有進行任何配置，本篇記錄一下消息消費失敗後重試配置。在程序開發過程中難免會出現各種奇葩異常，假如當

2020-07-08 02:35:43

Nacos(三)-Nacos Spring Cloud-配置中心

前兩篇記錄了下載安裝nacos、使用nacos作爲註冊中心： Nacos(一)-下載安裝 Nacos(二)-Nacos Spring Cloud-註冊中心本篇記錄使用nacos作爲配置中心，並通過配置頁面修改配置進行動態刷新

2020-07-08 02:35:43

SpringCloud Stream 整合RabbitMQ

本篇簡單介紹SpringCloud Stream 整合RabbitMQ基本步驟：引入SpringCloud 引入SpringCloud Stream相關依賴定義綁定接口: 消息生產者(Output…Binding) 、消息消

2020-07-08 02:35:43

Nacos(二)-Nacos Spring Cloud-註冊中心

上一篇記錄了下載安裝nacos Nacos(一)-下載安裝本篇記錄使用nacos作爲註冊中心，並註冊服務提供者、服務消費者進行調用演示。一、項目介紹本次創建一個項目nacos,其中包含兩個Module: service

2020-07-08 02:35:43

SpringBoot項目部署到linux服務器之環境搭建

進行了這麼長時間SpringBoot項目開發，今天想系統的總結一下項目部署到linux服務器的流程，這一篇記錄一下linux環境準備與搭建(linux環境裝在本機的虛擬機中）。一、軟件準備虛擬機：VirtualBox 下

2020-07-08 02:35:43

如何合適的應對遭遇戰？

設想：你在沒有任何準備的情況，老闆忽然問你對某件事物的看法？老闆開會的時候忽然說有一個領導崗位空缺，請大家馬上毛遂自薦，互相PK我們該如何應對呢？可惜

2020-07-07 23:15:57

隔離鼠標點擊雙擊移動事件

隔離鼠標點擊雙擊移動事件應用場景在編寫一個3d卡片切換的時候，需要執行 1. **單擊** 觸發模態框 2. **雙擊** 卡片定位 3. **拖動** 卡片跟隨問題默認dom事件鼠標**雙擊**的時候會觸發

2020-07-07 21:48:15

24小時熱門文章

最新文章

最新評論文章