累積分佈函數

 
一鍵收藏,隨時查看,分享好友!

累積分佈函數

直方圖和核密度估計的主要優勢在於直觀上的吸引力:能夠告訴我們找到某個特定數據點的可能性有多大。例如,從圖2-2可以清楚看出250毫秒左右的值出現的可能性非常大,而大於2000毫秒的值則非常罕見。

但是具體有多罕見呢?這個問題僅靠圖2-2的直方圖是很難找到答案的。另外,除了想知道尾部所佔的比重,我們可能還想知道哪部分請求是在150~350毫秒這個典型時間段完成的。當然,大多數事件都是在這個時間段完成的,但如果想知道具體有多少事件,就需要累加那個區域中所有矩形框的事件。

累積分佈函數(Cumulative Distribution Function,CDF)就具有這樣的功能。點x的CDF能告訴我們哪部分事件發生在x的"左邊"。換而言之,CDF是滿足xi≤x的所有xi。

圖2-7顯示的數據集與圖2-2的相同,但是,這裏的數據是用KDE(帶寬h = 30)來表示的而不是使用直方圖。另外,該圖也包含對應的CDF。(KDE和CDF都規一化爲1。)

我們可以直接從CDF讀出一些有趣的東西。例如,我們可以看到在t = 1500處(位於該分佈的尾部)CDF仍然小於0.85;這意味着只有15%的請求的響應時間超過1500毫秒。相反,大約三分之一的請求是在典型區域150~500毫秒的時間內完成的。(我們是怎樣知道這些的呢?t = 150的CDF大概是0.05,t = 500的CDF大概是0.40。換句話說,約40%的請求是在少於500毫秒的時間內完成的,在這些請求中,只有5%的請求是在少於150毫秒的時間內完成的。因此,大約35%的請求響應時間介於150~500毫秒之間。)

 
圖2-7 圖2-2所示服務器響應時間的核密度估計和累積分佈函數

我們有必要停下來思考一下這些新發現,因爲它們表明直方圖(或者KDE)是怎樣誤導人的,儘管(或者正是因爲)它們直觀上很吸引人!單獨從直方圖或KDE來判斷,絕對有理由假設大部分的事件發生在t=300附近的大峯上,而t>1500的尾部所起的作用非常小。然而,CDE清楚地說明事實並非如此。(問題在於我們的眼睛更善於判斷距離而不是面積,因此我們被直方圖中峯值附近那些很大的值誤導,而沒有發現與曲線下的總面積相比,高峯下方的面積並沒有那麼大。)

在基本圖形分析中,CDF可能是最不出名且最不受待見的工具。相對於直方圖和KDE,它們沒有太多直觀上的吸引力,但它們能夠讓我們對數據做出定量的描述,這是我們常常需要卻又很難從直方圖獲得的。

從它們的計算過程可以得出累積分佈函數的一些重要特性。

因爲位置x處的CDF值是x左側的那一部分數據點,因而CDF常常隨着x的增加單調遞增。

CDF不像直方圖(或者KDE)那樣抖動得厲害,但它本質上是以不太顯眼的形式包含相同的信息。

CDF不需要任何的矩形分組,因而不會丟失任何信息。因此,相較於直方圖,它表示的數據更可靠。

隨着x趨於負無窮,所有的CDF趨於0。CDF通常是歸一化的,因此隨着x趨於正無窮,它將趨於1。

對於指定的數據集,其CDF是唯一的。

如果你有很好的數學功底,可能已經看出CDF是(一個近似)直方圖的不定積分,直方圖是CDF的微分:

累積分佈函數有多種用途。第一個也是最重要的用途是,它們回答了本節前面提出的問題:有多大比例的點落在某兩個值之間?答案可以從圖中輕鬆得出。第二個用途是CDF能幫助我們理解分佈的不平衡性--換句話說,尾部佔總體多少比重。

當我們想要比較兩個分佈時,累積分佈函數也是很有用的。在直方圖中比較兩個鍾狀的曲線是非常困難的。比較相應的CDF則通常更容易得出結論。

在本節結束之前還要提的最後一點:在文獻中,你會發現這個詞:"分位數圖"(quantile plot)。分位數圖是一個CDF圖,在該圖中,x軸和y軸互換了。圖2-8再次使用了服務器響應時間數據集的例子。通過這種方式繪圖,我們可以很容易地回答出類似於"哪個響應時間對應於佔10%比重的響應時間?"的問題。不過,這個圖包含的信息和一個CDF圖包含的信息是完全一樣的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章