主題模型-LDA理解

怎樣寫一篇文檔,一篇文檔就是由單詞構成。具體點,假定一篇文章由N個單詞構成,那麼寫一篇文章的任務就變成了在紙上按次序寫N個單詞的任務了。寫第一個詞,寫第二個詞,寫第N個詞,OKN步完成!

怎麼寫單詞,具體點,第一個位置寫哪個詞,完事,那第二個位置呢,,最後,第N個位置呢?

第零種:拿過詞典來,隨便寫,翻到哪個詞寫哪個,管他呢!(自己加的,嘿嘿)

第一種:先對語料分詞統計,得出詞頻概率分佈Pw),按概率選!高級了,常用詞被選的概率肯定大了,出來的大都是常用詞,可以給小學生背詞用,呵~。(這叫unigram model

第二種:先對單詞分類,拿語料來,按相關方面(主題)分,“什麼”這個詞估計能被分到所有主題中吧,~~,就是一個詞可能被不同主題共享。好,每個分類中,分別統計其囊中的單詞概率!OK,開始寫文章,先想好寫哪方面的文章,拍板了,就在這個主題的口袋裏挑詞,按概率挑!~,這樣的文章估計可以折磨下初中生,就tm讓他總結中心思想,呵呵~。(這叫Mixture of unigrams

第三種:給高中生出啥題呢?讓他抽論點論據。丫的,給我分析明白,這文章中心論點是啥,有幾個分論點,每個分論點都是啥?啥啥啥??~~那怎麼給高中生寫文章出題呢?好,看邏輯結構,一篇文章,要有中心論點(主題),和幾個分論點(主題),分論點得有助於中心論點,得大體圍着中心論點啊,得在圈裏混,不能太出圈了!~~好辦!那開始,第二種造文法裏,對單詞分類(主題的),直接拿來用。好,再搞箇中心論點-分論點的陣列出來,哪些中心論點、分論點主題能放到一塊,各個的概率多少,一列一列的倒騰好,整個分佈出來(這就是Dirichlet分佈,分佈的分佈),有了這就有章可循了。開寫,先選個中心論點,行了,這個中心論點帶出來一列可選的分論點,都標着選取概率呢;還是老步驟,寫N個詞,一次一個,按順序來。第一個詞:先選個分論點,在這個分論點的口袋裏選個詞,第一個完事。第二個詞:選個分論點,在這個論點的口袋裏選個詞,N個,咔咔咔~完事!(這叫LDA

更嚴謹一點的解釋,參考http://blog.csdn.net/huagong_adu/article/details/7937616

小注:Mixture of unigrams中,圈z表示了選詞遵循的概率分佈p(w|z),所以這裏沒有了β圈,~~,師弟給整明白的。

發佈了38 篇原創文章 · 獲贊 1 · 訪問量 7萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章