累積分佈函數

《數據之魅：基於開源工具的數據分析》第2章單一變量：形狀和分佈，本章講述由單個變量組成的簡單數據集(或者一次只考慮一個變量)。本節爲大家介紹累積分佈函數。

AD： WOT2014課程推薦：實戰MSA：用開源軟件搭建微服務系統

累積分佈函數

直方圖和核密度估計的主要優勢在於直觀上的吸引力：能夠告訴我們找到某個特定數據點的可能性有多大。例如，從圖2-2可以清楚看出250毫秒左右的值出現的可能性非常大，而大於2000毫秒的值則非常罕見。

但是具體有多罕見呢？這個問題僅靠圖2-2的直方圖是很難找到答案的。另外，除了想知道尾部所佔的比重，我們可能還想知道哪部分請求是在150～350毫秒這個典型時間段完成的。當然，大多數事件都是在這個時間段完成的，但如果想知道具體有多少事件，就需要累加那個區域中所有矩形框的事件。

累積分佈函數(Cumulative Distribution Function，CDF)就具有這樣的功能。點x的CDF能告訴我們哪部分事件發生在x的"左邊"。換而言之，CDF是滿足xi≤x的所有xi。

圖2-7顯示的數據集與圖2-2的相同，但是，這裏的數據是用KDE(帶寬h = 30)來表示的而不是使用直方圖。另外，該圖也包含對應的CDF。(KDE和CDF都規一化爲1。)

我們可以直接從CDF讀出一些有趣的東西。例如，我們可以看到在t = 1500處(位於該分佈的尾部)CDF仍然小於0.85；這意味着只有15%的請求的響應時間超過1500毫秒。相反，大約三分之一的請求是在典型區域150～500毫秒的時間內完成的。(我們是怎樣知道這些的呢？t = 150的CDF大概是0.05，t = 500的CDF大概是0.40。換句話說，約40%的請求是在少於500毫秒的時間內完成的，在這些請求中，只有5%的請求是在少於150毫秒的時間內完成的。因此，大約35%的請求響應時間介於150～500毫秒之間。)

圖2-7 圖2-2所示服務器響應時間的核密度估計和累積分佈函數

我們有必要停下來思考一下這些新發現，因爲它們表明直方圖(或者KDE)是怎樣誤導人的，儘管(或者正是因爲)它們直觀上很吸引人！單獨從直方圖或KDE來判斷，絕對有理由假設大部分的事件發生在t=300附近的大峯上，而t>1500的尾部所起的作用非常小。然而，CDE清楚地說明事實並非如此。(問題在於我們的眼睛更善於判斷距離而不是面積，因此我們被直方圖中峯值附近那些很大的值誤導，而沒有發現與曲線下的總面積相比，高峯下方的面積並沒有那麼大。)

在基本圖形分析中，CDF可能是最不出名且最不受待見的工具。相對於直方圖和KDE，它們沒有太多直觀上的吸引力，但它們能夠讓我們對數據做出定量的描述，這是我們常常需要卻又很難從直方圖獲得的。

從它們的計算過程可以得出累積分佈函數的一些重要特性。

因爲位置x處的CDF值是x左側的那一部分數據點，因而CDF常常隨着x的增加單調遞增。

CDF不像直方圖(或者KDE)那樣抖動得厲害，但它本質上是以不太顯眼的形式包含相同的信息。

CDF不需要任何的矩形分組，因而不會丟失任何信息。因此，相較於直方圖，它表示的數據更可靠。

隨着x趨於負無窮，所有的CDF趨於0。CDF通常是歸一化的，因此隨着x趨於正無窮，它將趨於1。

對於指定的數據集，其CDF是唯一的。

如果你有很好的數學功底，可能已經看出CDF是(一個近似)直方圖的不定積分，直方圖是CDF的微分：

累積分佈函數有多種用途。第一個也是最重要的用途是，它們回答了本節前面提出的問題：有多大比例的點落在某兩個值之間？答案可以從圖中輕鬆得出。第二個用途是CDF能幫助我們理解分佈的不平衡性--換句話說，尾部佔總體多少比重。

當我們想要比較兩個分佈時，累積分佈函數也是很有用的。在直方圖中比較兩個鍾狀的曲線是非常困難的。比較相應的CDF則通常更容易得出結論。

在本節結束之前還要提的最後一點：在文獻中，你會發現這個詞："分位數圖"(quantile plot)。分位數圖是一個CDF圖，在該圖中，x軸和y軸互換了。圖2-8再次使用了服務器響應時間數據集的例子。通過這種方式繪圖，我們可以很容易地回答出類似於"哪個響應時間對應於佔10%比重的響應時間？"的問題。不過，這個圖包含的信息和一個CDF圖包含的信息是完全一樣的。

累積分佈函數

JSVM使用簡介

利用live555 Media Server和VLC Active ocx實現簡單的流媒體點播系統(B/S)

(重要)JSVM中配置文件介紹以及如何配出各種可分級

資料下載源

四種高效的SqlServer分頁方式

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結