LDA（Dirichlet Distribution）主題模型基本知識與理解（二）

原創

奋斗的小炎

2020-02-20 19:54

在第一部分博客裏已經講解了LDA的一些基本組成，這篇博文將會講解LDA在NLP方面的應用。望大家繼續支持

上一篇博文：https://blog.csdn.net/Little_Fire/article/details/80483566

（三）Dirichlet分佈在NLP中的應用

（關於topic生成word的過程）

根據上文中提到了的擲硬幣的例子，假設自然語言中存在很多奇怪的coin（religion、computer、art、physics等），這些coin能夠擲出的是不同的單詞分佈，例如religion coin更容易擲出的是god、bible、Jesus等詞，computer更容易擲出windows、bill gates、software、Turing等詞，而每個coin可以代表不同的topic，而每個coin（topic）擲出的結果也包含了不同的單詞（bag-of-word）。

這裏每個單詞wi是觀測值，由對應的zi（topic、document）決定，而每個zi又是由theta決定。此時的概率圖模型如下圖左所示。然而此時需要對詞語和文本都要進行重複採樣，直至把整個詞表和語料庫遍歷完成。詞表|V|=N，|D|=M，此時的概率圖模型如下圖右所示。

此時，思考一個問題：如果給定了topic Z，想計算觀測到的詞語w的概率爲多少，即求解p(w|z)=?

對於擲硬幣而言，只有z=0和z=1兩種情況，p（w|z）的表示形式如下：

（伯努利試驗）

而對於自然語言來說，p（w|z）是通過beta矩陣生成，beta矩陣存儲的是在每個topic下，詞表中所有詞的概率分佈，beta矩陣的形狀如下圖所示：

對於每個topic而言，所有詞在它上面都存在一個分佈，例如一個關於religion的分佈和computer的分佈：

因此，每個topic代表在所有詞上面的一個分佈，這個分佈用beta matrix描述，LDA的概率圖模型更新爲如下形式：

高維空間中，會生成許多theta，這裏的theta是所有topic的混合，這裏alpha的維度、theta的維度就是我們給定的topic數量（用K表示topic數量，即z1——zK）

給定K個維度，假設K=3，我們根據theta採樣出某個topic zi，再通過beta矩陣，獲取topic zi對應的所有單詞的分佈情況p（w|z=zi），根據p（w|z=zi）再採樣出單詞wi，就完成了一次LDA估計。

（四）LDA與topic model

綜上所述，我們給LDA一個比較實例化的定義：LDA是一個生成統計模型，如果觀測值是經過文本d採樣得到的詞語w，每個文檔d就是幾個不同topic的混合模型。並且每個詞語都隸屬於每個文檔的topics。

在給定的這些文本中，我們假設我們看到的這些詞都是由採樣生成的，而且是三次採樣而成，theta一次，z一次，w一次。然後根據這些採樣結果，反過來估計每個參數（beta矩陣的生成、topic數目等）

對於這個概率圖模型，我們先介紹幾個notation：

n：不同文檔中詞語的數量；Nd：第d篇文檔中詞語總數量；θ（dk）第d篇文檔的第k個topic的分佈（其中k代表維度，θ是多個topic的混合，d代表具體文檔）。當d=8時，topic維度總數K=4，θ的概率分佈θ（8k）有K=4維，如下所示：

β（ki）：表示給定了topic k時，生成每個詞語wi的分佈情況。k取值[1,K]，i取值[1,|V|]，|V|是詞表長度。

整個生成過程如下：

給定超參數，需要學習α生成的topic混合程度θ的值，即θ~dir（α），θ是組合的概率分佈，假設這個topic組合是三維的（紅、黃、藍），即K=3，這種組合就代表了一篇給定的文本，這個文本就認爲是由3種topic的組合。

接下來就是詞語w的生成過程，給定θ時，根據對應的topic分佈，採樣得到某個topic（例如，選擇紅色topic，z=1），然後通過beta矩陣，獲取z=1時所有詞語的概率分佈：如下：

再根據這個詞語的概率分佈，再次採樣得到一個詞（例如life）放入文本中，完成了一個詞語的採樣。

接下來採樣第二個詞，仍然從θ開始採樣（由於α已經給定，而θ已經由α的採樣獲得），根據第d篇文檔θ的topic分佈θ（dk），再次採樣一個topic（例如，選擇黃色topic，z=2），然後通過beta矩陣，獲取z=2時，詞表中所有詞語的概率分佈如下：

根據這個概率分佈，選擇了第二個詞（例如DNA）放入文本，完成了第二個詞語的採樣。

以此類推，第d篇文檔中的所有詞都通過這種方式全部採樣獲得，就是LDA在NLP上面的應用。

【小節】我們可以將沒篇文檔中所有詞的生成，看作是每次採樣的結果，而每個詞語的採樣又是通過3次採樣獲得。接下來，關於LDA參數如何訓練，將在下一小節中爲大家講解。

奮鬥的小炎

發佈了38 篇原創文章 · 獲贊 61 · 訪問量 10萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Opal 機器學習平臺：愛奇藝數智一體化實踐

01 綜述 Opal 是愛奇藝大數據團隊研發的機器學習平臺，包含特徵生產、樣本構建、模型訓練、模型部署在內的多環節 Bigdata + AI 開發服務，內置多種訓練鏡像、

愛奇藝技術產品團隊

2024-06-01 02:21:16

基於對比稀疏擾動技術的時間序列解釋框架 ContraLSP

開篇近日，由阿里雲計算平臺大數據基礎工程技術團隊主導，與南京大學、賓夕法尼亞州立大學、清華大學等高校合作，解釋時間序列預測模型的論文《Explaining Time Series via Contrastive and Locally

2024-06-01 00:25:50

兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

金融反欺詐指南：車險欺詐爲何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

還能報名！風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國！

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-29 02:18:59

AI安全志：英國AI騙保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

文心大模型免費辣，動手搓點啥慶祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

五款擴展組件齊發 —— Volcano、Keda、Crane-scheduler 等，邀你體驗

今年 3 月，KubeSphere 啓動了首屆擴展組件開發者訓練營，吸引了 60 名開發者報名。經過一個半月的密集培訓和實戰演練，這些開發者成功打造了五款創新的擴展組件，現已全部上架至 KubeSphere Marketplace，歡迎大家

2024-05-23 11:17:40

基於 Milvus + LlamaIndex 實現高級 RAG

隨着大語言模型（LLM）技術的發展，RAG（Retrieval Augmented Generation）技術得到了廣泛探討和研究，越來越多的高級 RAG 檢索方法也隨之被人發現，相對於普通的 RAG 檢索，高級 RAG 通過更深化的技術細

2024-05-22 21:25:18

站在岸上學不會游泳 | 算法校招生的高效成長總結

在這個由數據編織、由算法驅動的時代，AI大模型正成爲推動社會進步的重要力量。我們不僅是變革的見證者，更是推動者和塑造者。感謝零售UP技術人欄目的邀請，本文藉此機會回顧一下自己的算法之路上的一些故事和思考，希望能帶給讀者一些幫助。介紹自

2024-05-22 11:56:42

全球廠商之最，華爲17篇論文入選國際數據庫頂會ICDE

本文分享自華爲雲社區《全球廠商之最，華爲GaussDB&GeminiDB，17篇論文入選國際數據庫頂會ICDE》，作者：GaussDB 數據庫。 5月13-17日，國際數據庫頂級學術會議 ICDE 2024 於荷蘭烏得勒支舉行。華爲Gau

2024-05-22 10:58:13

Gen AI 連接非結構化數據，Unstructured Data Meetup 第二場官宣杭州！

定了！6 月 15 日，備受硅谷開發者喜愛的 Unstructured Data Meetup 第二場將在杭州舉辦！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 202

2024-05-20 21:25:07

探索未知：風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過

2024-05-15 21:26:01

爲程序員和新手準備的 8 大 Python 工具

Python 是一種開源編程語言，用於 Web 編程、數據科學、人工智能和許多科學應用。學習 Python 使程序員能夠專注於解決問題，而不是專注於語法，其豐富的庫賦予它完成偉大任務所需的力量。 1) IDLE 安裝 Python 時

2024-05-14 01:06:43

24小時熱門文章

最新文章

最新評論文章