衡量數據的離散程度

我們通常使用均值、中位數、衆數等統計量來反映數據的集中趨勢,但這些統計量無法完全反應數據的特徵,即使均值相等的數據集也存在無限種分佈的可能,所以需要結合數據的離散程度。常用的可以反映數據離散程度的統計量如下:

極差(Range)

  極差也叫全距,指數據集中的最大值與最小值之差:

Range

  極差計算比較簡單,能從一定程度上反映數據集的離散情況,但因爲最大值和最小值都取的是極端,而沒有考慮中間其他數據項,因此往往會受異常點的影響不能真實反映數據的離散情況。

四分位距(interquartile range,IQR)

  我們通常使用箱形圖來表現一個數據集的分佈特徵:

box-plot

  一般中間矩形箱的上下兩邊分別爲數據集的上四分位數(75%,Q3)和下四分位數(25%,Q1),中間的橫線代表數據集的中位數(50%,Media,Q2),四分位距是使用Q3減去Q1計算得到:

 interquartile-range

  如果將數據集升序排列,即處於數據集3/4位置的數值減去1/4位置的數值。四分位距規避了數據集中存在異常大或者異常小的數值影響極差對離散程度的判斷,但四分位距還是單純的兩個數值相減,並沒有考慮其他數值的情況,所以也無法比較完整地表現數據集的整體離散情況。

方差(Variance)

  方差使用均值作爲參照系,考慮了數據集中所有數值相對均值的偏離情況,並使用平方的方式進行求和取平均,避免正負數的相互抵消:

Variance

  方差是最常用的衡量數據離散情況的統計量。

標準差(Standard Deviation)

  方差得到的數值偏差均值取平方後的算術平均數,爲了能夠得到一個跟數據集中的數值同樣數量級的統計量,於是就有了標準差,標準差就是對方差取開方後得到的:

Standard-Deviation

  基於均值和標準差就可以大致明確數據集的中心及數值在中心周圍的波動情況,也可以計算正態總體的置信區間等統計量。

平均差(Mean Deviation)

  方差用取平方的方式消除數值偏差的正負,平均差用絕對值的方式消除偏差的正負性。平均差可以用均值作爲參考系,也可以用中位數,這裏使用均值:

Mean-Deviation

  平均差相對標準差而言,更不易受極端值的影響,因爲標準差是通過方差的平方計算而來的,但是平均差用的是絕對值,其實是一個邏輯判斷的過程而並非直接計算的過程,所以標準差的計算過程更加簡單直接。

變異係數(Coefficient of Variation,CV)

  上面介紹的方差、標準差和平均差等都是數值的絕對量,無法規避數值度量單位的影響,所以這些統計量往往需要結合均值、中位數纔能有效評定數據集的離散情況。比如同樣是標準差是10的數據集,對於一個數值量級較大的數據集來說可能反映的波動是較小的,但是對於數值量級較小的數據集來說波動也可能是巨大的。

  變異係數就是爲了修正這個弊端,使用標準差除以均值得到的一個相對量來反映數據集的變異情況或者離散程度:

Coefficient-of-Variation

  變異係數的優勢就在於作爲一個無量綱量,可以比較度量單位不同的數據集之間的離散程度的差異;缺陷也是明顯的,就是無法反應真實的絕對數值水平,同時對於均值是0的數據集無能爲力。

  其實這篇文章只是對基礎的統計知識的整理,可以從很多資料裏面找到,很多統計學的書裏面都是在“統計描述”章節中介紹這些基礎的統計量,跟均值、中位數、衆數等一起羅列,很少通過統計量的具體應用進行分類,而國外的一些書對知識點的介紹更多的是從實際應用的角度出發的,這裏推薦《深入淺出統計學》這本書,雖然介紹的都是基礎的統計知識,但可讀性比較強,通俗易通,相比國內的一些統計學教程,更容易在大腦中建立起有效的知識索引,在具體應用中能夠更加得心應手。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章