簡單理解統計學3-描述分佈的數值

來自於Simple Learning Pro的系列課程

上一章介紹瞭如何用圖標來表示數值的分佈;有些統計型數值通常也用來描述數據的分佈:
衆數
中位數
平均值
範圍
標準差(方差)

衆數、中位數、均值

這三者一般用於描述中心量數(measures of center)

衆數:一組數據中,出現次數最多的數據

中位數:按順序排列的一組數據中居於中間位置的數;對於有限的數集,可以通過把所有觀察值高低排序後找出正中間的一個作爲中位數。如果觀察值有偶數個,通常取最中間的兩個數值的平均數作爲中位數
當N爲奇數時,M(0.5)=X(N+1)/2
當N爲偶數時,M(0.5)=[X(N)/2+X(N+1)/2]/2

均值:是表示一組數據集中趨勢的量數,是指在一組數據中所有數據之和再除以這組數據的個數

範圍、標準差

以上兩指標分散程度的度量:

範圍:一組數據中,最大值-最小值

標準差:總體各單位標準值與其平均數離差平方的算術平均數的平方根

四則運算對描述分佈的數值計算的影響

中心度量值(中位數,衆數,平均值)受任何加減乘除的影響;
分散度量值(範圍,標準差)僅受乘除的影響;

假設一組數值每個基礎變量均增量相同的量,相當於整體分佈右移,但其分散程度並未發生變化;
若基礎變量同時發生多項運算,均值的計算同時發生多項運算,方差的計算僅針對乘除有效。

離羣值對描述分佈的數值計算的影響

離羣值(outlier)是指數據中有一個或幾個數值與其他數值相比差異較大;
在描述分佈的數值中,均值、範圍、標準差均會受到離羣值的影響;而衆數和中位數則相對穩定

5數概括法及箱形圖

五數概括法即用下面的五個數來概括數據:

最小值;
第1四分位數(Q1): 位置= (n+1) × 0.25
中位數(Q2): 位置= (n+1) × 0.5
第3四分位數(Q3): 位置= (n+1) × 0.75
最大值。

箱形圖提供了五數概括法的視覺展示,同時箱形圖也可展示異常值。
異常值的判斷標準如下:數值<Q1-1.5*IQR  或者  數值>Q3+1.5*IQR
其中,IQR爲四分位間距=Q3-Q1

對稱性與偏度

當我們在說對稱性(symmetry)和偏度(skewness)時,我們主要看的是分佈圖形的形狀(在此主要涉及到三種圖形:直方圖、莖葉圖、箱形圖)

對稱式分佈,圖形左右完全對稱;中位數=均值

非對稱式分佈

左偏態:左側尾部拖得很長;此時數據位於均值左邊的比位於右邊的少,直觀表現爲左邊的尾部相對於與右邊的尾部要長;中位數>平均數

右偏態:右側尾部拖得很長,此時數據位於均值右邊的比位於左邊的少,直觀表現爲右邊的尾部相對於與左邊的尾部要長;平均值>中位數

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章