【NLP】LDA筆記之模型評估

原創

2020-07-04 20:37

Reference

Number of topics

Plexity OR maximum likelihood estimation

使用R語言進行主題發現：https://www.cnblogs.com/deeplearningfans/p/4114892.html

要在數據集中確定主題的個數，需要事先設定主題個數的搜索範圍；然後分別使用LDA計算主題模型在不同主題數目下的困惑度或者似然估計數值，最終能夠使得模型困惑度最低或者似然估計值最大的主題數即爲最佳的主題個數。一般爲了降低困惑度，通常還會採取交叉驗證的方法進行。（由似然估計判別：抽取每個主題的對數似然估計值，計算各個主題的調和平均數，將其作爲模型的最大似然估計）

圖源《Trends in Diatom Research Since 1991 Based on Topic Modeling》

準確率

Perplexity

theory

python下進行lda主題挖掘(三)——計算困惑度perplexity

評估LDA主題模型-perflexity：LDA主題模型好壞的評估，判斷改進的參數或者算法的建模能力。

code

topic-models-evaluation-in-gensim

Topic Coherence

gensim: CV Conference OR UMass Conference

主題模型TopicModel：LDA主題模型的評估

https://github.com/fozziethebeat/TopicModelComparison

查全率(recall)、查準率(precision)、F1值(F1 score)

《主題模型在基於社交媒體的災害分類中的應用及比較》對比LDA與BTM模型性能：分別從LDA、BTM模型（Bi-term Topic Model, BTM雙詞對主題模型）推斷結果中的每一類隨機抽取出 102 條、101 條進行人工判別檢驗，人爲地將原文本歸到該8個大類中。（將2種模型推斷主題的結果與人工判別主題結果進行精度檢驗和比對，並且對模型的分類結果進行應用分析）

《基於主題模型的微博話題檢測算法》：實驗評估採用信息檢測領域最常用的 3 個評價指標：準確率 P（precision）——結果中有多少是準確的、召回率即查全率 R（recall）——所有準確的結果中有多少被檢測出來；綜合評價指標 F 值（F-value）——準確率與召回率的綜合評價參數。

定量+定性評價

《不同語料下基於LDA主題模型的科學文獻主題抽取效果分析》

定量評價：查準率、查全率和 F 值；信息熵。定性評價：主題抽取的廣度（所抽取的有效主題在本學科領域內的覆蓋範圍）和主題粒度（主題的細化程度）。主題抽取的廣度越廣，抽取的主題粒度越細，則主題抽取的效果越好。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【NLP】LDA筆記之模型評估

Reference

Number of topics

Plexity OR maximum likelihood estimation

準確率

Perplexity

theory

code

Topic Coherence

查全率(recall)、查準率(precision)、F1值(F1 score)

定量+定性評價

【Python】100基礎例（1-50）+數據分析例

【NLP】預訓練詞向量

【NLP】LDA2Vec筆記（基於cemoody/lda2vec 未實現）

【Python】面向對象_菜鳥教程

【NLP】英文數據預處理___詞幹/詞元處理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結