Zipf分佈

有一個基本定律,就是大家常說對於內容的訪問遵循80/20原則,也就是20%的內容,會佔有80%的訪問量。

Zipf分佈與其類似。
這是一個定性的原則,定量來說,內容訪問近似符合Zipf定律(Zipf's law), 這個定律是美國語言學家Zipf發現的,他在1932年研究英文單詞的出現頻率時,發現如果把單詞頻率從高到低的次序排列,每個單詞出現頻率和它的符號訪問排名存在簡單反比關係:

 

Zipf分佈 - icymary - icymary 的博客
 
這裏 r 表示一個單詞的出現頻率的排名,P(r)表示排名爲r的單詞的出現頻率.

(單詞頻率分佈中 C約等於0.1, a約等於1)

        後人將這個分佈稱爲齊夫分佈,這個分佈是一個統計型的經驗規律,描述了這樣一個定理:只有少數英文單詞經常被使用,大部分的單詞很少被使用。這個定理也在很多分佈裏面得到了驗證,比如人們的收入,互聯網的網站數量和訪問比例,互聯網內容和訪問比例(其他分>布兩個常數有所不同,a越大,分佈越密集,對於VOD來說某些時候符合雙zipf分佈)。

 

 

  ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~··

(來自維基百科)

齊夫定律可以表述爲:在自然語言語料庫裏,一個單詞出現的頻率與它在頻率表裏的排名成反比。所以,頻率最高的單詞出現的頻率大約是出現頻率第二位的單詞的2倍,而出現頻率第二位的單詞則是出現頻率第四位的單詞的2倍。這個定律被作爲任何與power law probability distributions有關的事物的參考。

 

理論

這個“定律”是哈佛大學語言學家George Kingsley ZipfIPA[zɪf])1949年發表的。

比如,在 Brown 語料庫中,“the”是最常見的單詞,它在這個語料庫中出現了大約7%(100萬單詞中出現69971次)。正如齊夫定律中所描述的一樣,出現次數爲第二位的單詞“of”佔了整個語料庫中的3.5%(36411次),之後的是“and”(28852次)。僅僅135個字彙就佔了Brown 語料庫的一半。

齊夫定律是一個實驗定律,而非理論定律。齊夫分佈可以在很多現象中被觀察到。齊夫分佈的在現實中的起因是一個爭論的焦點。 齊夫定律很容易用點陣圖觀察,座標爲log(排名)和log(頻率)。比如,“the”用上述表述可以描述爲x = log(1), y = log(69971)的點。如果所有的點接近一條直線,那麼它就遵循齊夫定律。

最簡單的齊夫定律的例子是“1/f function”。給出一組齊夫分佈的頻率,按照從最常見到非常見排列,第二常見的頻率是最常見頻率的出現次數的½,第三常見的頻率是最常見的頻率的1/3,第n常見的頻率是最常見頻率出現次數的1/n。然而,這並不精確,因爲所有的項必須出現一個整數次數,一個單詞不可能出現2.5次。然而,在一個廣域範圍內並且做出適當的近似,許多自然現象都符合齊夫定律

===========================================================================

下面是某個系統VOD內容的訪問分佈,第一幅圖是訪問頻率曲線,Y軸是內容的訪問次數,X軸是內容根據訪問次數的排名, 我們可以看到,多數訪問集中於少量內容上:

 

 


第二幅圖是對數軸的訪問頻率曲線,源數據和上圖一致,可以看到近似爲一條直線:


 

 

從曲線的斜率可以計算出,這裏的內容訪問頻率分佈,a約等於0.6(不同種類的內容a的大小也不一樣)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章