power-law 之Zipf

一.

對於CDN的內容管理,有一個基本定律,就是大家常說對於內容的訪問遵循80/20原則,也就是20%的內容,會佔有80%的訪問量。

這是一個定性的原則,定量來說,內容訪問近似符合Zipf定律(Zipf's law), 這個定律是美國語言學家Zipf發現的,他在1932年研究英文單詞的出現頻率時,發現如果把單詞頻率從高到低的次序排列,每個單詞出現頻率和它的符號訪問排名存在簡單反比關係:

 

這裏 r 表示一個單詞的出現頻率的排名,P(r)表示排名爲r的單詞的出現頻率.

(單詞頻率分佈中 C約等於0.1, a約等於1)

後人將這個分佈稱爲齊夫分佈,這個分佈是一個統計型的經驗規律,描述了這樣一個定理:只有少數英文單詞經常被使用,大部分的單詞很少被使用。這個定理也在很多分佈裏面得到了驗證,比如人們的收入,互聯網的網站數量和訪問比例,互聯網內容和訪問比例(其他分佈兩個常數有所不同,a越大,分佈越密集,對於VOD來說某些時候符合雙zipf分佈)。

 

下面是某個系統VOD內容的訪問分佈,第一幅圖是訪問頻率曲線,Y軸是內容的訪問次數,X軸是內容根據訪問次數的排名, 我們可以看到,多數訪問集中於少量內容上:

 

 


第二幅圖是對數軸的訪問頻率曲線,源數據和上圖一致,可以看到近似爲一條直線:


 

 

從曲線的斜率可以計算出,這裏的內容訪問頻率分佈,a約等於0.6(不同種類的內容a的大小也不一樣)。

 

二.

[紅框內容]

1、Zipf分佈

Zipf分佈介紹

X~Zipf(alpha,n)表示隨機變量X具有帶參數alpha和n的Zipf分佈。帶有參數alpha和n的Zipf隨機變量X是有概率質量函數在裏面。

這裏我們解釋一下什麼是概率質量函數:

在概率論中,概率質量函數 (Probability Mass Function,PMF)是離散隨機變量在各特定取值上的概率。概率質量函數和概率密度函數不同之處在於:概率密度函數是對連續隨機變量定義的,本身不是概率,只有對連續隨機變量的取值進行積分後纔是概率。

上面公式的含義爲在隨機變量X的映射函數下,所有樣本空間中的結果在此映射下輸出結果爲x的概率。

屬性如下:

繼續我們的介紹。對於所有正整數n和所有的alpha>0。Zipf分佈可以用來解釋人口中少數成員的相對受歡迎程度以及其他人口的相對默默無聞的程度。例子包括以下:

  • 少部分網站獲得了大量的點擊量,大多數網站獲得了適度的點擊量,還有大量的網站幾乎沒有任何點擊量。
  • 圖書館有幾本人人都想借的書(暢銷書),大多數借閱的書(經典著作),還有大量幾乎從未借過的書。
  • 自然語言中使用頻率很高的單詞( "the" 和 "of" 排在英語前兩位),大多數單詞頻率使用較低(如“butter”和“joke”),還有大量的詞彙很少人用(如“defenestrate”,“lucubration” 或 “mascaron”等。

alpha = 1 和 n = 10 的概率質量函數如下圖所示:

分母中的求和表示爲:

另一種表現形式是:

X的累積分佈函數:

X的殘存函數:

X的風險函數:

X的累積風險函數:

X的矩量母函數:

X的特徵函數:

X的總體均值,方差,偏度,峯度:

 

2、Zeta分佈

當n趨近於無限大時,Zipf分佈就變成了Zeta分佈。

Zeta分佈介紹

X~Zeta(alpha)表示隨機變量X的Zeta分佈。參數alpha>1。

對於任何alpha> 1。alpha=2 的概率質量函數如下所示:

Zeta分佈也可以認爲是在離散概率分佈中的帕累託分佈

帕累託分佈以意大利經濟學家 Vilfredo Pareto命名,他在1882年研究英國的財富分配情況時,發現前20%的人羣擁有着社會80%的財富,這一現象可以用一個簡單的概率分佈函數來描述,即帕累託分佈。

帕累託分佈是一個skewed,厚尾(fat-tailed)分佈。對於一個隨機變量X來說,xm是X能取到的最小值,X的survival function是

由此可以得到X的概率分佈函數(c.d.f)
其中係數α爲正,被稱爲shape parameter,或tail index。
xm是1時,帕累託分佈的累計概率分佈函數圖像爲:

對應的密度函數爲:

其他和Zipf類似,這裏不再進一步描述。

 

3、Discrete uniform分佈

Zipf分佈滿足上面的條件就會演變成離散均勻分佈。

離散均勻分佈介紹:

X∼discrete uniform(a,b)隨機變量X和整數離散均勻分佈參數a和b,a < b。

概率質量函數如下圖所示:

例如:a23,n=32,則:

X的累積分佈函數:

X的殘存函數:

X的風險函數:

X的累積風險函數:

X的中位數m:

X的特徵函數:

X的總體均值,方差,偏度,峯度:

4、Rectangular分佈

離散均勻分佈滿足上面的條件就會演變成Rectangular分佈

概率質量函數,n=5 如下圖所示:

其他和離散均勻分佈類似,這裏不再進一步描述。

 

5、Beta-binomial分佈

貝塔-二項式分佈介紹:

反過來當滿足a=b=1時,貝塔-二項式分佈符合了Rectangular分佈。

貝塔-二項分佈:二項分佈中的參數p不是固定的值,是服從Beta(a,b)分佈。

計算公式:

其中L(p|k)表示二項式分佈的最大似然估計計算方式。然後將

整合到p得:

期望:

二項分佈就是重複n次獨立的伯努利試驗。在每次試驗中只有兩種可能的結果,而且兩種結果發生與否互相對立,並且相互獨立,與其它各次試驗結果無關,事件發生與否的概率在每一次獨立試驗中都保持不變,則這一系列試驗總稱爲n重伯努利實驗,當試驗次數爲1時,二項分佈服從0-1分佈。

如果隨機變量X服從二項分佈,記爲:

恆有

當n相當大時,只要p不太靠近0或1, 特別是當nπ和n(1-π)都大於5時,二項分佈B(n,π)近似正態分佈。

(a)概率函數直條圖;(b)連續性校正直方圖;(c)正態近似圖

貝塔分佈是一個作爲伯努利分佈和二項式分佈的共軛先驗分佈的密度函數,在機器學習和數理統計學中有重要應用。貝塔分佈中的參數可以理解爲僞計數,伯努利分佈的似然函數可以表示爲,表示一次事件發生的概率,它爲貝塔有相同的形式,因此可以用貝塔分佈作爲其先驗分佈。

其中,B(a,b)是beta函數。

首先,現實生活中我們通常需要估計一件事情發生的概率,如拋一次硬幣爲正面的概率。我們可以進行統計的方式給出答案,比如拋了100次硬幣,其中有30次向上,我們就可以說這個硬幣爲正面的概率是0.3。當然我們可以從另外一個角度回答問題,比我對實驗的公信度進行懷疑,我就可以說爲正面的概率是0.3的可能性是0.5,爲0.2的可能性是0.2,爲0.4的概率是0.3,給出硬幣爲正面的概率的分佈,即伯努利實驗中p的分佈。給出參數的分佈,而不是固定值,的好處有很多。

  • 一,如拋100次中,30次向上,和拋100000次中30000次向上,兩者估計p的值都是0.3。但後者更有說服力。如果前者實驗得到p爲0.3的置信度是0.5的話,後者實驗得到p爲0.3的置信度就有可能是0.9,更讓人信服。
  • 二,估計一個棒球運動員的擊球命中率。如果我們統計一個新棒球運動員的比賽次數,發現,3場比賽中,他擊中2次,那麼我們可以說他的擊球命中率是2/3麼?顯然不合理,因爲因爲根據棒球的歷史信息,我們知道這個擊球率應該是0.215到0.36之間纔對。但如果我們給出的是擊球明中率的分佈,而不是固定的值,就可以表示我們對當前擊球命中率估計的置信度,提供了更加豐富的信息。因爲只觀察了三次比賽,所以我們得到運動員命中率爲2/3的概率是0.1,表示我們對這個命中率值不確定。

由前面可知,我們的需求是爲了模擬模型參數的模型,beta分佈是來模擬”取值範圍是從0到1時的模型的參數的分佈”。比如就求拋硬幣爲正的概率p爲例。如果我們知道p的取值,我們就可以計算拋10次硬幣,其中有1次向上的概率是

有3次向上的概率是

有6次向上的概率是P

那麼我們如何求p值呢? 前面說的有兩種方法,一個是給固定的值 ,一個給值的密度分佈函數。我們這裏介紹後者,假設p值符合Beta分佈。即

那麼現在我們又做了10次實驗,其中4次爲正,6次爲反,稱爲信息X。那麼我們現在要計算得到信息X後概率p的分佈,即P(p|X),根據貝葉斯條件概率計算公式

這裏使用最大似然估計計算P(X|p),即

其中分子分母中

和是B(a,b)函數是常數項可以約去,最後得到:

總結:目的是計算得到p的概率分佈,而不是固定的值。首先根據之前的經驗或者統計,假設p服從Beta(a,b)分佈,a表示之前統計中爲正的次數,b爲之前統計中爲負的次數。接着,根據新做的實驗或者新到達的信息X,來修正p的分佈,修正後的p同樣是服從Beta分佈,只不過是參數由(a,b)變成(a+m,b+n),m表示新得到的信息中爲正的次數,n表示新得到的信息中爲負的次數。這樣的修正過程可以很直觀的被理解,而且修改前後是兼容的,很好的體現了一個學習修正的過程。

X~betabinomial(a,b,n)來表示隨機變量X具有a、b和n的貝塔-二項分佈,其中a、b > 0和n爲正整數。貝塔-二項式隨機變量X與參數A、b和n具有概率質量函數。

貝塔-二項式隨機變量是一個具有隨機參數p的二項隨機變量,它是具有與參數a和b的beta分佈。

n = 20 的概率質量函數和3個不同參數如下圖所示:

a = 0.7、b = 2

a = 2、b = 2

a = 6、b =4

X的總體均值,方差,偏度,峯度:

 

轉自https://zhuanlan.zhihu.com/p/31917252

轉自http://www.cnblogs.com/peon/articles/6146230.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章