基於spark mllib的LDA模型訓練源碼解析

原創

2018-09-05 00:45

一直想寫一篇關於LDA模型訓練的源代碼走讀，但是因爲個人水平以及時間原因未能如願，今天想起來就記錄了一下源碼走讀過程。有什麼解釋的不太清楚或者錯誤的地方請大家指正。

LDA模型訓練大致經過以下這些步驟：

輸入數據（已轉換爲Vector）和參數設置
根據LDA選擇的算法初始化優化器
迭代優化器
獲得LDA模型

下面對每一步的源碼進行代碼跟進。完整的項目可以到我的github下載

1. 輸入數據和參數設置

文件：ckooc-ml/algorithm/utils/LDAUtils.scala

入口方法：train()

主要是紅框中的三個部分：數據向量化、LDA優化器參數設置、執行訓練

這裏document中的Long類型是每個文檔的ID，後面Vector是tokens的向量表示，主要形式是（詞彙表大小，token的index數組，token對應的WC的數組）

LDA優化器參數設置主要是對訓練時需要用到的主題數、迭代次數、初始alpha、初始beta等進行設置

run方法時LDA訓練的主入口，方法具體實現如下：

主要實現三個功能：優化器的初始化、迭代優化器、獲取模型。後面對這幾部分進行詳細解析。

2. 根據LDA選擇的算法初始化優化器

因爲這裏我使用的是EM算法，所以跟進LDAOptimizer.scala中直接看EMLDAOptimizer的initialize(docs: RDD[(Long, Vector)], lda:LDA)方法即可。

詳細解析：

2.1設置參數

2.2設置alpha和beta

注意：默認的alpha= (50.0 / K) + 1.0，beta = 1.1.通常情況下不用對這兩個超參數的初始值進行特殊設置，直接使用默認值即可。

2.3因爲LDA模型訓練使用的是圖計算，故在此生成圖的邊（Document -> Term）

每條邊包含文檔ID，詞的索引、詞對應的WC，其中term2index方法功能如下：

2.4生成圖的各個節點

從上述代碼可以看到每個節點都是由一個節點ID和對應的由隨機函數產生的關於主題的隨機向量組成，節點ID又和邊關聯（VertexId= edge.srcId或edge.dstId）

2.5構建圖以及優化器參數設置

3. 迭代優化器

優化器的迭代主要是由優化器的next()方法實現：

這一步的實現主要使用了EM算法總的來說分爲兩步E-Step和M-Step，這兩步的解釋如下：

E-Step：假定參數已知，計算此時隱變量的後驗概率。

M-Step：帶入隱變量的後驗概率，最大化樣本分佈的對數似然函數，求解相應的參數和。

詳細解析：

3.1 E-Step，計算每篇文檔的後驗概率，形成一個後驗主題概率分佈

這裏主要計算每個主題的後驗概率的方法時computePTopic()方法：

3.2 M-Step，根據後驗概率分佈計算和

3.3根據新的和來更新圖，爲下一次迭代做準備

EM算法的實現也可以參考：“通俗理解LDA主題模型”中關於pLSA和LDA的參數估計部分

4. 獲得LDA模型

這一部分比較簡單，直接使用訓練好的graph等信息生成一個DistributedLDAModel即可

5. 總結

以上就是spark上整個的LDA模型訓練過程。總結下來還是挺簡單的，主要就以下幾個步驟：

初始參數構造圖（邊：doc-term,頂點：doc-topics）
使用EM算法，計算每個doc的，形成doc 的後驗主題分佈
根據後驗主題分佈計算參數和
根據參數和更新圖
得到模型

其中2-4步根據迭代次數進行迭代

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

「機器學習_8」Bag-of-Words

Bag-of-Words 1.文字問題 2. 什麼是Bag-of-Words(具體例子） 3. 侷限性 1.文字問題文本建模的一個問題是它很雜亂，機器學習算法之類的技術更喜歡定義明確的

2020-07-08 11:01:54

迴歸損失函數：L1 Loss, L2 Loss, Smooth L1 Loss

講解的很清楚： https://www.cnblogs.com/wangguchangqing/p/12021638.html

2020-07-08 10:39:04

感知機中的關鍵問題：點到平面的距離，和梯度更新的符號

感知機的原理、以及學習方法，還是比較簡單的，參考： https://www.pkudodo.com/2018/11/18/1-4/ 但其中有2點關鍵，不是特別好理解： 1、關於點到平面的距離：參考：https://www.jian

2020-07-08 10:27:04

在spark，MapReduce 或 Flink 程序裏面制定環境變量

以jdk來舉例，當我們需要更高版本的jdk時，而默認的環境引用的是低版本的jdk，會引發如下錯誤： Exception in thread "main" java.lang.UnsupportedClassVersionError:

梦里却知是客

2020-07-08 11:59:58

變身漫畫道具玩了沒？這樣的 AI 人像特效機器學習服務幫你實現

近期，抖音上一款 “變身漫畫” 的特效刷爆“我的關注”，二次元漫畫樣式的畫風更是讓大家欲罷不能。從明星到路人，從大朋友到小朋友紛紛參與其中，抖音 App 中“變身漫畫”話題頁顯示約有 1851 萬餘人使用該道具。如今，此類視頻 / 圖片

2020-07-14 12:03:51

深度學習_目標檢測_FPN論文詳解

FPN的創新點多層特徵特徵融合解決了目標檢測中的多尺度問題，通過簡單的網絡連接改變，在基本不增加原有模型計算量的情況下，大幅度提升小物體（small object）的檢測性能。在物體檢測裏面，有限計算量情況下，網絡的深

2020-07-08 11:57:07

深度學習_目標檢測_“YOLOv5”詳解（持續更新）

YOLOv5可以方便的進行工程化部署： YOLOv5（PyTorch）−>ONNX−>CoreML−>iosYOLOv5（PyTorch） -> ONNX -> CoreML -> iosYOLOv5（PyTorch）−>ONNX

2020-07-08 11:57:07

分類問題中的決策面畫法 (直觀理解plt.contour的用法)

摘要通過分類問題中決策面的繪製過程直觀理解matplotlib中contour的用法，主要包括對 np.meshgrid 和plt.contour的直觀理解。前言分類問題中，我們習慣用2維的dmeo做例子，驗證算法的有效性。

张王李刘赵孙杨

2020-07-08 11:10:55

KNN算法第二章 Pandas & sklearn 機器學習實戰 Machine Learning in action

本專欄計劃藉助Pandas與sklearn重新實現書中的實戰案例。 k-近鄰算法1. KNN算法流程2. KNN改進約會網站的配對效果2.1 數據準備：從文本中解析數據2.2 數據可視化：散點圖2.3 數據處理：歸一化數值2.4

2020-07-08 11:09:44

[R]聚類算法:k-means模組

延伸<[Excel]k-means聚類算法的應用，以評價現有供應商的水平為例。>文章，同時恰巧在圖書館看到一本R語言機器學習書籍，因此正好可進一步瞭解如何用R語言來實現k-means算法和應用，一併將k-means模組建立起來，做為未來參

2020-07-08 10:38:53

python--內置函數

1、python內置函數：類型轉換數學運算常用 int() max() all() range() help() float() min() any() set() format() long() sum() type()

2020-07-08 10:38:40

Spark系列：Spark學習筆記

Spark 閱讀官方文檔 Spark Quick Start Spark Programming Guide Spark SQL, DataFrames and Datasets Guide Cluster Mode Overv

2020-07-08 12:17:40

Spark 線性迴歸模型異常

java.lang.AssertionError: assertion failed: lapack.dppsv returned 9. at scala.Predef$.assert(Predef.scala:179)

2020-07-08 12:17:29

spark日常報錯問題-持續性更新

1：spark運行過程中出現與driver鏈接異常，並存在磁盤讀寫一場: java.io.IOException: Failed to delete: /mnt/sd04/yarn/nm/usercache/hdfs/appcache/a

梦里却知是客

2020-07-08 11:59:58

pySpark DataFrame簡介

1. 列名類型 pyspark.sql.types module DataType NullType StringType BinaryType BooleanType DateType TimestampType Decimal

2020-07-08 09:36:34

24小時熱門文章

最新文章

最新評論文章