泛統計理論初探——文本挖掘中的主題模型

數據挖掘-初探主題模型

文本挖掘之主題模型
本次的文章中將介紹文本挖掘中最常見的模型,即主題模型。主題模型又稱之爲LDA,即Latent Dirichlet Allocation,英文直譯是潛在狄利克雷分佈。該模型是通過構造文章/主題以及主題/單詞這兩種分佈組成整個主題模型的,而構造的方式是通過構造各個單詞和主題的極大似然函數、構造各個主題和文章的極大似然函數這兩種分佈,最後通過主題去區分每篇文章,從而達到了文本分類的效果。
LDA模型和之前文章討論過的詞袋模型的思路很像,詞袋模型是把詞語和文章通過出現頻率關聯起來,並且排除一些高頻但無用的詞彙,即TF-IDF模型的思路。而主題模型是通過文章主題作爲中介的一種模型,由於一篇文章可能有多個主題,並且認爲文章中的每個詞語都是通過某個主題而生成的,也就是說LDA的思路其實也是通過詞頻去關聯到主題,再通過主題關聯到文章的一種模型。其本質上也是通過矩陣的形式體現模型,但不同於TF-IDF模型那樣直接把文章和詞語進行關聯,而是要通過主題這個中介進行關聯,因此就有兩個矩陣,即文章-主題矩陣和主題-詞語矩陣。這樣的好處是經過主題這個“中介者”可以更準確的識別一些詞彙,特別是某些主題特有的詞彙。其實這就是相當於聚類的思路,原先的TF-IDF可以類比於是直接聚類,而LDA主題模型其實就是先聚類到主題,然後主題再聚類到詞語,也就是可以看作有個預聚類的步驟。下面我們來觀察主題模型的步驟:
1)對於每個文章,從事先確定的主題分佈去抽取1個topic
2)對於上述每個抽到的topic,去topic對應的單詞分佈去抽取1個詞語
3)重複步驟1和步驟2,直到文章中的每個單詞都被抽到

通過上述的步驟,我們可以發現LDA實質上就是利用單詞出現的概率最大的情況去體現文章和單詞的關聯,通過不停的去文章-主題分佈和主題-單詞分佈進行Gibbs抽樣,從而達到通過文章中的關鍵詞去識別這是哪一篇文章的效果,其思路本質上就是貝葉斯模型。
通過上述的步驟我們可以發現,這個LDA模型是一種無監督模型,只需要輸入文章和主題個數就可以得出模型,並且不需要人工進行文章的主題標註,使用較爲方便,並且操作性較強,在某些主題鮮明的使用場景下可以使用並且效果不錯。但是該模型的缺點就在於,它只考慮了單詞出現頻率,本質上是一種更爲精準的詞袋模型。而這種模型並沒有考慮到詞語之間的順序以及語境,容易被一些“類比”、“雙關語”等誤導。所以纔有了後來的CNN、LSTM等模型。
在這裏插入圖片描述
總的來說,主題模型是基於詞袋模型發展出來的一種模型,是比較早期的模型,比較之前的TF-IDF模型的識別準確率有一定提升,但是該方法同樣受到超參數的影響,比如主題個數,主題個數如果設定錯誤,那麼會嚴重影響模型的效果。與此同時,該模型由於沒有考慮到詞語順序、語境,所以在一些模糊主題的場景、或是主題較爲隱晦的文章,LDA主題模型的效果較爲一般。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章