LDA——從概率的角度去看文學

是自生自滅,還是概率使然。
在這裏插入圖片描述
如果說上帝有數不盡的骰子,而人類現有的語言文字只是部分骰子的骰面(畢竟可能有其他外星文明,對應地球的語言只是部分骰子),當上帝添加新的骰子或者骰面的時候,新的語言文字就誕生了。

那麼文章是不是就可以理解爲上帝擲骰子後產生的結果,作家的思路、靈感不過是上帝在擲骰子。

針對文章的基本組成 來說。例如,“我”,這個詞有許多種的表達方式,
如果將世界上所有的相關文本進行統計分析,就會得到各種表達所佔的比例,這時就是對所有的人而言;
當然可以細化,例如只收集近代中國所有與"我"同義的表述,這時就是對近代中國人而言,當你寫"我"時的先驗概率,也就是說你當你要寫"我"時,會以什麼概率用什麼形式來寫出來,這時切記要將全部近代中國人當作一個作家開看,因爲我們的採樣就是如此。

以上對詞的分析,只是從詞頻的角度去統計概率,這遠遠不夠的。例如當你寫文言文時,是不會用"我"這個詞來表示"我"的。因此詞的真正使用概率就開始變得複雜起來,它與文章的上下文開始有了關係。

當上帝擲完骰子後,一篇文章便出現, 或好或壞,但每一篇文章基本都有它自己的主題,主題是由全部詞彙或者主要詞彙產生的,那麼我們怎麼用概率來解釋主題和詞之間的關係呢?怎樣用概率去找出一篇文章的主題呢? 在nlp中,文本模型就是準們處理這樣的問題,而LDA則是其中一種。…

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章