第四章 数据的概括性度量

1 集中趋势的度量

分类数据:众数
顺序数据:中位数和分位数
分位数:上四分位数(Ql)、下四分位数(Qu)
Ql位置=n/4,Qu位置=3n/4
如果位置是整数,四分位数就是在该位置对应的值;如果是在0.5的位置上,则取该位置两侧值的平均数;如果在0.25或0.75的位置上,则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值。
数值型数据:平均数
几何平均数:n个变量值乘积的n次方根,主要用于计算平均比率。
众数和中位数都不受极端值的影响。

2 离散程度的度量

分类数据:异众比率
异众比率指非众数组的频数占总频数的比例。
顺序数据*:四分位差
四分位差是上四分位数与下四分位数之差,反映了中间50%数据的离散程度,其数据越小,说明中间数据越集中
数值型数据:方差和标准差
极差:最大值与最小值之差,易受极端值影响
平均差:平均绝对离差,各变量值与其平均数离差绝对值的平均数
方差:各变量与其平均数离差平方的平均数。样本方差用样本数据个数减1后去除离差平方和,其中样本数据个数减1即n-1成为自由度
标准差:与方差不同的是,其是具有量纲的,它与变量值的计量单位相同。
相对位置的度量
有了平均数和标准差之后,可以计算一组数据中各个数值的标准分数,以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据。
标准分数:变量值与其平均数的离差除以标准差后的值,也称标准化值。如某个数值的标准分数为-1.5,则该数值低于平均数1.5倍的标准差。
经验法则
当一组数据对称分布时,经验法则表明:
约有68%的数据在平均数±1个标准差的范围内;
约有95%的数据在平均数±2个标准差的范围内;
约有99%的数据在平均数±3个标准差的范围内;
一组数据中,高于或低于平均数3个标准差的数值很少,这些数据成为离群点。
切比雪夫不等式
经验法则适合对称分布数据,而对于不对称数据,则可使用切比雪夫不等式,它对任何分布形状的数据都使用。根据切比雪夫不等式,至少有(11/k 2 )  的数据落在k  个标准差之内,其中k  是大于1的任意值,但不一定是整数。对于k=2  ,则表示至少有75%的数据落在平均数±2个标准差的范围之内。
相对离散程度:离散系数
对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接比较其离散程度的。为消除变量值水平高低和计量单位不同对离散程度测量值的影响,需要计算离散系数。
离散系数:也称变异系数,是一组数据的标准差与其相应的平均之比,离散系数大,说明数据的离散程度也大。

3 偏态与峰态的度量

1偏态及其测度

偏态(skewness)是对数据分布对称性的测度。测度偏度的统计量是偏态系数,记作SK。
根据未分组的原始数据计算偏态系数时,通常采用下面的公式:
SK=n(x i x ¯ ) 3 (n1)(n2)s 3   
式中s 3   是样本标准差的三次方
如果一组数据的分布是对称的,则偏态系数等于0;如果偏态系数明显不等于0,表明分布是非对称的。若大于1或小于-1,为高度偏态分布;若在0.5~1或-1~-0.5,则为中等偏态分布,越接近0,偏态程度就越低。
根据分组数据计算偏态系数,可采用以下公式:
SK= k i=1 (M i x ¯ ) 3 f i ns 3   

2 峰态及其测度

峰态(kurtosis)是对数据分布平峰或尖峰程度的测度,通常是与标准正态分布相比较而言的。测度峰度的统计量是峰态系数,记作K。
在根据未分组数据计算峰态系数时,通常采用以下公式:
K=n(n+1)(x i x ¯  4 )3((x i x ¯ ) 2 ) 2 (n1)(n1)(n2)(n3)s 4   
根据分组数据计算峰态系数是离差四次方的平均数再除以标准差的四次方,其计算公式为:
SK= k i=1 (M i x ¯ ) 4 f i ns 4  3 
正态分布的峰态系数为0,当K>0时为尖峰分布,数据的分布更集中;当K<0时为扁平分布,数据的分布越分散。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章