主題模型-LDA理解

原創

大漠孤舟

2020-02-20 19:04

怎樣寫一篇文檔，一篇文檔就是由單詞構成。具體點，假定一篇文章由N個單詞構成，那麼寫一篇文章的任務就變成了在紙上按次序寫N個單詞的任務了。寫第一個詞，寫第二個詞，…寫第N個詞，OK，N步完成！

怎麼寫單詞，具體點，第一個位置寫哪個詞，完事，那第二個位置呢，…，最後，第N個位置呢？

第零種：拿過詞典來，隨便寫，翻到哪個詞寫哪個，管他呢！（自己加的，嘿嘿）

第一種：先對語料分詞統計，得出詞頻概率分佈P（w），按概率選！高級了，常用詞被選的概率肯定大了，出來的大都是常用詞，可以給小學生背詞用，呵~。（這叫unigram model）

第二種：先對單詞分類，拿語料來，按相關方面（主題）分，“什麼”這個詞估計能被分到所有主題中吧，~~，就是一個詞可能被不同主題共享。好，每個分類中，分別統計其囊中的單詞概率！OK，開始寫文章，先想好寫哪方面的文章，拍板了，就在這個主題的口袋裏挑詞，按概率挑！~，這樣的文章估計可以折磨下初中生，就tm讓他總結中心思想，呵呵~。（這叫Mixture of unigrams）

第三種：給高中生出啥題呢？讓他抽論點論據。丫的，給我分析明白，這文章中心論點是啥，有幾個分論點，每個分論點都是啥？啥啥啥？？~~那怎麼給高中生寫文章出題呢？好，看邏輯結構，一篇文章，要有中心論點（主題），和幾個分論點（主題），分論點得有助於中心論點，得大體圍着中心論點啊，得在圈裏混，不能太出圈了！~~好辦！那開始，第二種造文法裏，對單詞分類（主題的），直接拿來用。好，再搞箇中心論點-分論點的陣列出來，哪些中心論點、分論點主題能放到一塊，各個的概率多少，一列一列的倒騰好，整個分佈出來（這就是Dirichlet分佈，分佈的分佈），有了這就有章可循了。開寫，先選個中心論點，行了，這個中心論點帶出來一列可選的分論點，都標着選取概率呢；還是老步驟，寫N個詞，一次一個，按順序來。第一個詞：先選個分論點，在這個分論點的口袋裏選個詞，第一個完事。第二個詞：選個分論點，在這個論點的口袋裏選個詞，…第N個，咔咔咔~完事！（這叫LDA）

更嚴謹一點的解釋，參考http://blog.csdn.net/huagong_adu/article/details/7937616

小注：Mixture of unigrams中，圈z表示了選詞遵循的概率分佈p(w|z)，所以這裏沒有了β圈，~~，師弟給整明白的。