最近在看Multi-View Learning of Word Embeddings via CCA這篇文章時,裏面提到了一個陌生的概率分佈模型.
Zipfian distribution
一個離散冪律概率分佈,也就是常常提到的長尾模型.在自然語言的語料庫裏,一個單詞出現的頻率與它在頻率表裏的排名成反比。頻率最高的單詞出現的頻率大約是出現頻率第二位的單詞的2倍,是出現頻率第三位的單詞的3倍。
在Brown語料庫中出現次數最多的詞”the”佔語料庫中所有詞出現次數的
Source From:https://en.wikipedia.org/wiki/Zipf%27s_law