topic model之PLSA的簡單理解

原創

2018-09-04 21:57

PLSA: Probabilistic Latent Semantic Analysis

在文本處理中，我們常常直接根據文本的內容，將document 和term直接關聯分析，比如計算term frequency等。而在topic模型中，我們認爲document是有主題topic的，topic纔是直接和term關聯的，但是topic又是不可觀測的變量，所以它是一個隱含變量，則document 和term都可以看成是該隱含變量的分佈。具體如圖：

由於topic是隱含變量，那如何描述doc,topic,term之間的關係呢，這裏假設每篇文檔d都可以以概率p(z|d)屬於某一個主題，並且在給定主題後，每個詞都以一定的概率p(w|z)產生，這樣文檔和詞一同出現的概率就可以通過概率來進行描述：

通過PLSA分析可以得到p(d|z), p(w|z)的概率。

利用圖模型的PLSA的描述爲：

那麼改如何求解?我們都知道在p(d,w)含有隱含變量，如果直接利用最大似然函數的方法來求解的話，就會遇到類似於GMM的問題，難以直接求解，那麼同樣可以採用EM算法來進行求解：

目標是doc和term的聯合概率的似然函數最大：

其中E-step來估計概率：

M-step:來更新參數：

直至最後收斂。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

計算廣告閱讀筆記

一、基本概念廣告市場的參與者出資人、媒體和受衆這三者的利益博弈關係構成了廣告活動永遠的主線。廣告活動的兩個主動的參與方是需求方和供給方，被動的參與方是受衆。需求方：這裏的需求方包括廣告主，代表廣告主利益的代理商或其他技術

2020-07-06 17:38:29

計算廣告學習筆記 4.7競價廣告系統-邏輯迴歸優化方法介紹

BFGS收斂速度很快。工程上由於特徵很多，並且各個特徵情況不同，工程問題經常是病態的，難以短時間內用普通的一階梯度法找到最優解。在這種情況下，只能用二階導的方法（Hession陣），要求Hession是正定的。 BFGS就是儘量保證

2020-07-01 15:41:22

計算廣告學習筆記1.4 廣告的基礎知識-在線廣告的特點

Banner的點擊率雖然降低了，但是點擊率不是廣告的唯一衡量標準。美國廣告行業協會：-iab（供給方媒體的利益(供給方 = supply)，把線下廣告儘可能搬到線上，制定衡量標準，創意標準）-4A（傳統廣告代理的協會，代理費用收取

2020-07-01 15:41:12

計算廣告學習筆記1.1 廣告的基礎知識-廣告的目的

-品牌廣告（Brand Awareness）：創出良好的品牌形象，目的長期的離線轉化率。 -效果廣告（Direct Response）：短期內明確用戶轉化行爲訴求的廣告。

2020-07-01 15:41:12

計算廣告學習筆記 4.4競價廣告系統-流量預測

合約廣告的主要組成部分：流量預測、CTR預測、受衆定向，在三個基礎上進行online Allocation。 Query就是前面的DNF

2020-07-01 15:41:12

計算廣告學習筆記1.7 廣告的基礎知識-廣告搜索與推薦的區別

這裏的Downstream的意思就是說，廣告是點擊結束，基本就結束了，優化的是點擊的過程，但是對於推薦來說，推薦一個，點擊這個，接着又有新的推薦，也就是說優化的話是優化整個推薦的流程。

2020-07-01 15:41:12

計算廣告學習筆記 4.2競價廣告系統-廣告網絡概念

淡化廣告位的概念,出售的是人羣。（如果按照CPM收費的話，廣告聯盟不同網站的廣告位千差萬別，廣告主無法估計該出的價格，所以不合理，只好CPC）不支持定製化的用戶劃分，比如說某個廣告主想購買有去日本旅遊的人羣，就需要break down

2020-07-01 15:41:12

計算廣告學習筆記 4.1競價廣告系統-位置拍賣理論

競價廣告系統（有關鍵詞的，也有display的）屬於只保質不保量的方式（可以控制每個impression的ROI，但是無法保證量，量可以交給demand方面的公司做）。 u_as 爲收益，研究重點爲系統達到平衡時的狀態。 p_s爲排在s

2020-07-01 15:41:12

計算廣告學習筆記 4.5競價廣告系統-zookeeper介紹

zoo keeper 在index和ad serve 裏用的都很多。比如說在index或者ad serve中，很多臺機器，某些機器加入，或者某些機器掉線，就需要這樣的分佈式管理系統通知相關的模塊，哪些是可以用的。 Paxos解決（一個

2020-07-01 15:41:12

計算廣告學習筆記1.2 廣告的基礎知識-廣告的有效性模型

曝光（exposure）-> 關注（attention）->理解（comprehension）-> 信息接受(message accptance) -> 保持（retention）->購買（purchase）(廣告位的天然屬性)（進入腦

2020-07-01 15:41:12

計算廣告學習筆記1.6 廣告的基礎知識-計算廣告核心問題和挑戰

-強化學習：探索與利用（新廣告和用戶的哪種組合比較好，試的過程中會損失一定的收入） -候選查詢：實時索引（廣告不斷添加進index，不斷被移除）-特徵存儲：No-sql技術（特徵量很大） -在線學習：很短的反饋，比如說上一次的搜索內容

2020-07-01 15:41:12

計算廣告學習筆記 4.8競價廣告系統-動態特徵

靜態feature：年齡=15，廣告類型= 電商廣告簡單的1或者0 動態feature：在某些組合維度上聚合歷史行爲，作爲CTR預測的特徵，可以看做是隻知道兩個維度上對CTR的估計，將估計作爲邏輯迴歸的輸入。 feature上的一

2020-07-01 15:41:12

計算廣告學習筆記 4.6競價廣告系統-點擊率預測與邏輯迴歸

迴歸（具體到一個數值）比單純的按照點擊率排序好的，因爲使用的不僅僅是CTR： 1、比如說對廣告網絡而言，廣告的排序，使用的是ECPM = CTR*bid 2、對於DSP（demand service platform）而言，出價= CT

2020-07-01 15:41:12

cookie和cookie mapping

cookie Cookie是由服務器端生成，發送給終端用戶，一般是瀏覽器，瀏覽器會將Cookie的key/value保存到某個目錄下的文本文件內，下次請求同一網站時就發送該Cookie給服務器（前提是瀏覽器設置爲啓用cookie）

2020-07-01 03:13:46

DIEN模型介紹

文章目錄DIEN介紹興趣抽取層輔助loss興趣演化層整體模型結構圖實驗對比參考 DIEN介紹在CTR預估中，捕捉用戶行爲背後隱式的興趣是非常重要的，而且因爲外部環境和用戶心智的變化，用戶的興趣會隨着時間不斷演化。傳統的CTR預

2020-06-27 01:06:42

24小時熱門文章

最新文章

最新評論文章