1 集中趨勢的度量
分類數據:衆數
順序數據:中位數和分位數
分位數:上四分位數(Ql)、下四分位數(Qu)
Ql位置=n/4,Qu位置=3n/4
如果位置是整數,四分位數就是在該位置對應的值;如果是在0.5的位置上,則取該位置兩側值的平均數;如果在0.25或0.75的位置上,則四分位數等於該位置的下側值加上按比例分攤位置兩側數值的差值。
數值型數據:平均數
幾何平均數:n個變量值乘積的n次方根,主要用於計算平均比率。
衆數和中位數都不受極端值的影響。
2 離散程度的度量
分類數據:異衆比率
異衆比率指非衆數組的頻數佔總頻數的比例。
順序數據*:四分位差
四分位差是上四分位數與下四分位數之差,反映了中間50%數據的離散程度,其數據越小,說明中間數據越集中
數值型數據:方差和標準差
極差:最大值與最小值之差,易受極端值影響
平均差:平均絕對離差,各變量值與其平均數離差絕對值的平均數
方差:各變量與其平均數離差平方的平均數。樣本方差用樣本數據個數減1後去除離差平方和,其中樣本數據個數減1即n-1成爲自由度
標準差:與方差不同的是,其是具有量綱的,它與變量值的計量單位相同。
相對位置的度量
有了平均數和標準差之後,可以計算一組數據中各個數值的標準分數,以測度每個數據在該組數據中的相對位置,並可以用它來判斷一組數據是否有離羣數據。
標準分數:變量值與其平均數的離差除以標準差後的值,也稱標準化值。如某個數值的標準分數爲-1.5,則該數值低於平均數1.5倍的標準差。
經驗法則:
當一組數據對稱分佈時,經驗法則表明:
約有68%的數據在平均數±1個標準差的範圍內;
約有95%的數據在平均數±2個標準差的範圍內;
約有99%的數據在平均數±3個標準差的範圍內;
一組數據中,高於或低於平均數3個標準差的數值很少,這些數據成爲離羣點。
切比雪夫不等式
經驗法則適合對稱分佈數據,而對於不對稱數據,則可使用切比雪夫不等式,它對任何分佈形狀的數據都使用。根據切比雪夫不等式,至少有
相對離散程度:離散係數
對於平均水平不同或計量單位不同的不同組別的變量值,是不能用標準差直接比較其離散程度的。爲消除變量值水平高低和計量單位不同對離散程度測量值的影響,需要計算離散係數。
離散係數:也稱變異係數,是一組數據的標準差與其相應的平均之比,離散係數大,說明數據的離散程度也大。
3 偏態與峯態的度量
1偏態及其測度
偏態(skewness)是對數據分佈對稱性的測度。測度偏度的統計量是偏態係數,記作SK。
根據未分組的原始數據計算偏態係數時,通常採用下面的公式:
式中
如果一組數據的分佈是對稱的,則偏態係數等於0;如果偏態係數明顯不等於0,表明分佈是非對稱的。若大於1或小於-1,爲高度偏態分佈;若在0.5~1或-1~-0.5,則爲中等偏態分佈,越接近0,偏態程度就越低。
根據分組數據計算偏態係數,可採用以下公式:
2 峯態及其測度
峯態(kurtosis)是對數據分佈平峯或尖峯程度的測度,通常是與標準正態分佈相比較而言的。測度峯度的統計量是峯態係數,記作K。
在根據未分組數據計算峯態係數時,通常採用以下公式:
根據分組數據計算峯態係數是離差四次方的平均數再除以標準差的四次方,其計算公式爲:
正態分佈的峯態係數爲0,當K>0時爲尖峯分佈,數據的分佈更集中;當K<0時爲扁平分佈,數據的分佈越分散。