Zipfian分佈

最近在看Multi-View Learning of Word Embeddings via CCA這篇文章時,裏面提到了一個陌生的概率分佈模型.

Zipfian distribution

一個離散冪律概率分佈,也就是常常提到的長尾模型.在自然語言的語料庫裏,一個單詞出現的頻率與它在頻率表裏的排名成反比。頻率最高的單詞出現的頻率大約是出現頻率第二位的單詞的2倍,是出現頻率第三位的單詞的3倍。
在Brown語料庫中出現次數最多的詞”the”佔語料庫中所有詞出現次數的7% ,排名第二的是”of”佔3.5% .

Source From:https://en.wikipedia.org/wiki/Zipf%27s_law

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章