topic model之PLSA的簡單理解

PLSA: Probabilistic Latent Semantic Analysis


    在文本處理中,我們常常直接根據文本的內容,將document 和term直接關聯分析,比如計算term frequency等。而在topic模型中,我們認爲document是有主題topic的,topic纔是直接和term關聯的,但是topic又是不可觀測的變量,所以它是一個隱含變量,則document 和term都可以看成是該隱含變量的分佈。具體如圖:


    由於topic是隱含變量,那如何描述doc,topic,term之間的關係呢,這裏假設每篇文檔d都可以以概率p(z|d)屬於某一個主題,並且在給定主題後,每個詞都以一定的概率p(w|z)產生,這樣文檔和詞一同出現的概率就可以通過概率來進行描述:

  

    通過PLSA分析可以得到p(d|z), p(w|z)的概率。

    利用圖模型的PLSA的描述爲:

    


    那麼改如何求解?我們都知道在p(d,w)含有隱含變量,如果直接利用最大似然函數的方法來求解的話, 就會遇到類似於GMM的問題,難以直接求解,那麼同樣可以採用EM算法來進行求解:

    

    目標是doc和term的聯合概率的似然函數最大:


  

   其中E-step來估計概率:



  M-step:來更新參數

                

直至最後收斂。

    






      



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章