【数据挖掘数学基础】01描述统计(下)

目录

四、离散程度

1、定义:反映各变量值远离其中心值的程度,是数据分布的一种重要特征,从另一个侧面说明了集中趋势测度值的代表程度。

2、常见指标:

2.1极差:一组数据最大值与最小值之差;

2.2平均差:各变量与其均值离差绝对值的平均数;

2.3方差和标准差:方差是平均差的平方,标准差是方差的算数平方根。方差和标准差还分总体和样本两种。这两个指标是计算数据离散程度最常用的指标。

2.4离散系数:又称变异系数,是标准差与均值之比。

五、偏态与峰态

1、偏态:是值数据分布偏斜程度,由K Pearson(卡·皮尔逊)提出。符号:SK。

2、峰态:是指数据分布的扁平程度,也是有K Pearson提出。符号K表示。


四、离散程度

1、定义:反映各变量值远离其中心值的程度,是数据分布的一种重要特征,从另一个侧面说明了集中趋势测度值的代表程度

2、常见指标:

2.1极差:一组数据最大值与最小值之差;

  • 符号:R
  • 公式:R=max(xi)-min(xi)
  • 理解:是测度离散程度的最简单的方法,但极易受极端值的影响,且未考虑数据的分布。

2.2平均差:各变量与其均值离差绝对值的平均数;

  • 符号:Md
  • 公式:未分组数据:

                   分组数据:(Mi :组中值)

  • 理解:平均差是一个很好能表现数据离散程度的值,Md越大数据越分散;但因为公式中有绝对值,在数学公式运算中,一般绝对值都尽量要想办法去掉,所以该公式的数学性质较差,一般在实际应用中很少用,那是否有能保留该公式的特征又可以约减绝对值呢,平方就能解决这个问题,所以便有了方差。
  • 注意⚠️:标准差和平均差的公式是不一样的,不要搞混淆了。

2.3方差和标准差:方差是平均差的平方,标准差是方差的算数平方根。方差和标准差还分总体和样本两种。这两个指标是计算数据离散程度最常用的指标。

  • 符号:总体方差:σ2,总体标准差:σ

                  样本方差:s2,样本标准差:s 

  • 公式:

【思考】为什么样本分母是n-1而不是n?

【解答】因为样本是总体的一部分,且样本受\bar{X}(总体平均值)的约束,所以自由取值的个数变会少一个,所以n-1。记住,有\bar{X}出现就会有自由度的出现。

【Excel应用-例子】

(未分组的情况)

(分组情况:excel是没有这个函数的,需要我们算出组中值,然后计算加权平均数,才能求出样本方差和样本标准差)

2.4离散系数:又称变异系数,是标准差与均值之比。

  • 符号:V_{S}
  • 公式:V_{S}=S/\bar{X}
  • 例子:以下两组数据对比离散程度

                   A组:1,2,3 

                  B 组:10,20,30

【解答】

用方差和标准差公式可以看出b组数据比a组数据离散,但如果我们把这两组加上一个单位呢,a组是元,b组是角,那还是b组数据比a组数据离散吗?因此这里我们需要给他们再除以各自的均值。即:V_{A}=S_{A}/\bar{X_{A}}=1/2;V_{B}=S_{B}/\bar{X_{B}^{2}}=1/2;;可以看出a、b组数据的离散程度是一样的。

【理解】:当数据单位一样,适用场景一样的话,可以直接用方差或标准差,而数据单位不一样,适用场景也不同的话,应该用离散系数;离散系数是对数据相对离散程度的测度,消除了数据水平不同和数据计量单位不同对离散程度的影响;


我们了解这么多描述数据离散程度的指标,在华润万家案例中,我们也可以提出,研究华润万家的消费者消费金额的差距,消费者层次是否稳定;


五、偏态与峰态

1、偏态:是值数据分布偏斜程度,由K Pearson(卡·皮尔逊)提出。符号:SK。

公式:

(不用背,一般统计工具会有函数,excel中的SEKW()函数是对未分组的偏态系数计算)

理解:(下图横座标是变量值,纵座标是个数)

  • 当SK=0对称分布,众数Mo=中位数Me=均值\bar{X}

  • 当SK<0左偏分布,均值\bar{X}<中位数Me<众数MO, 中位数和众数不受极端值影响,均值受极小值影响较大,左偏极端值是最小值,因此拉低均值。

  • 当SK>0右偏分布,众数MO<中位数Me<均值\bar{X};均值受极大值影响较大,右偏极端值是最大值,因此拉高均值。

  • 当数据对称分布或接近对称时,求平均指标一般用均值,而当分布偏差程度较大时,一般用众数或中位数;
  • 偏态程度:0<|SK|<0.5低度偏态分布; 0.5<|SK|x≤1中等偏态分布, |SK|>1高度偏态分布

2、峰态:是指数据分布的扁平程度,也是有K Pearson提出。符号K表示。

公式:(统计工具也有函数,excel中KURT()函数是未分组数据峰态系数统计)

理解:


描述统计就告一段落,附上一份描述统计案例。

【描述统计-案例分析过程】链接:https://pan.baidu.com/s/1GkWKh7cA_1lbT4ZHWXiwVA  密码:kyjd

【描述统计案例-老师的模版】链接:https://pan.baidu.com/s/11Vz6Q6dP3K5iZQmel45yLA  密码:yiyj

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章