《统计学》笔记:第4章 数据的概括性度量

集中趋势 central tendency

集中趋势是指一组数据向某一中心值考虑的程度,它反映了一组数据中心点的位置所在。

众数 mode

众数是一组数据中出现次数最多的变量值,用M0表示。众数主要用于测量分类数据的集中趋势,当然也适用于作为顺序数据以及数值型数据集中趋势的测度值。一般情况下,只有在数据量较大的情况下,众数才有意义。【批:若数据量小,将数据处理为分组数据后也可以使用众数】

中位数 median

中位数是一组数据排序后处于中间位置上的变量值,用Me表示。中位数主要用于测量顺序数据的集中趋势,当然也适用于测度数值型数据的集中趋势,但不适用于分类数据。【批:此处的分类数据并非分组数据,分组数据的中位数也是可以计算且有意义的】

四分位数 quartile

四分位数也称四分位点,它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(称为下四分位数)和处在75%位置上的数值(称为上四分位数)。

均值 mean

平均数也称均值,它是一组数据相加后后除以数据的个数得到的结果。均值是集中趋势的最主要测量值,它主要适用于数值型数据【批:定距数据和定比数据】,而不适用于分类数据和顺序数据。

简单平均数 simple mean

根据未经分组数据计算的平均数称为简单平均数。

加权平均数 weighted mean

根据分组数据计算的平均数称为加权平均数。

几何平均数 geometric mean

几何平均数是n个变量乘积的n次方根,用G表示。几何平均数主要用于计算平均比率,当所掌握的变量值本身是比率的形式时,采用和平均法计算平均比率更为合理。几何平均数主要用于计算现象的平均增长率。

异众比率 variation ratio

异众比率是指非众数组的频数占总频数的比例,用Vr表示。异众比率主要用于衡量众数对一组数据的代表成都。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。

四分位差 quartile deviation / 内距 / 四分间距 inter-quartile range

四分位差是上四分位数与下四分位数之差,用Qd表示。四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。因为中位数也处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。

极差 / 全距 range

一组数据的最大值与最小值之差称为极差,也称全距,用R表示。极差是描述数据离散程度的最简单的测度值,但它容易受到极端值的影响。

平均差 mean deviation / 平均绝对利差 mean absolute deviation

平均差是各变量值与其平均数利差绝对值的平均数,用Md表示。平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散状况。

方差 variance

方差是各变量值与其平均数离差平方的平均数。它在数据处理上是通过平方的办法消去离差的正负号,然后再进行平均。

标准差 standard deviation

方差的平方根称为标准差。标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。

自由度 degree of freedom

在计算样本方差时,是用样本数据个数减1后除离差平方和,其中样本数据个数减1即n-1称为自由度。

标准分数 standard score

变量值与其平均数的离差除以标准差后的值称为标准分数,也称标准化值或z分数。标准分数给出了一组数据中各数值的相对位置。

离群点 outlier

在平均数据±3个标准差的范围内几乎包含了全部数据,而在±3个标准差之外的数据,在统计上称为离群点。【批:离群点值远离平均水平的极端大值和极端小值;也可以通过中位数±1.5个四分位差作为边界来度量】

离散系数 / 变异系数 coefficient of variation

离散系数也称为变异系数,它是一组数据的标准差与其相应的平均数之比。离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。

偏态 skewness

偏态一词是由皮尔逊于1895年首次提出的,它是对数据分布对称性的测度。【批:有些也将“偏态”称为“偏度”】

偏态系数 coefficient of skewness / SK

测度偏态的统计量是偏态系数。如果一组数据的分布是对称的,则偏态系数等于0;如果偏态系数明显不等于0,则表明分布是非对称的;偏态系数越大,说明偏斜的程度越大。

峰态 kurtosis

峰态一词是由皮尔逊于1905年首次提出的。它是对数据分布平峰或尖峰程度的测量。

峰态系数 coefficient of kurtosis / K

测量峰态的统计量是峰态系数。峰态通常是与标准正态分布相比较而言的。如果一组数据服从标准正态分布,则峰态系数的值等于0;若峰态系数的值明显不等于0,则表明分布比正态分布更平或更尖,通常称为平峰分布或尖峰分布。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章