数据自习室第一周·数据的描述性统计0715-0721

学习笔记第一周

数据的描述性统计0715-0721

 

目录

 

一、数据的集中趋势 

1.众数:

一组数据中,出现次数最多的那个数,用大写字母 M 表示。 一组数据可以有多个众数,也可以没有众数。 用众数代表一组数据,可靠性较差,不过众数不受极端数据的影响,并且求法简便。在一组数据中,如果个别数据有很大的变动,选择中位数表示这组数据的“集中趋势”就比较适合。 众数的三种求解方法: 观察法:直接找出次数最多的那组数 ;金氏插入发法;皮尔逊经验法 

2.中位数:

按顺序排序,处于中间位置的数。一组数据中,从小到大排序,或者从大到小排序,正中间那个数就是中位 数。如果是这组数据是奇数个数,则为中间那个数,如果是偶数个数,则为中间那两个数的平均数。 在概率密度函数中,中位数就是把整个图分成两边面积相等的地方。


3.平均数:

一般指的是 算术平均数。表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以 这组数据的个数。易受到极端数据的影响。

算数平均数:

几何平均数 :

加权平均数:

4.分位数:

亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。 四分位数是统计学中分位数的一种,即把所有数值由小到大 排列并分成四等份,处于三个分割点位置的数值就是四分位数。 1.第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值 由小到大排列后第 25%的数字; 2.第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到 大排列后第 50%的数字; 3.第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值 由小到大排列后第 75%的数字。 第三四分位数与第一四分位数的差距又称四分位距。 百分位数:统计学术语。如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。

5.极差:

最大值与最小值之间的差距。又称范围误差或全距(Range),以R表示,是用来表示统计资料中的变异量数(measures of variation),其最大值与最小值之间的差距,即最大值减最小值后所得之数据。极差=最大值 - 最小值 即:R=xmax-xmin

 

二、数据的离中趋势 

1.数值型数据
方差:度量随机变量和其数学期望(即均值)之间的偏离程度。
标准差:所有数减去其平均值的平方和,所得结果除以该组数之个数(或个数减一,即变异数),再把所得值开根号,所得之数就是这组数据的标准差。
极差:最大值与最小值之间的差距。
平均差:各个变量值同平均数的离差绝对值的算术平均数。

2.顺序数据
四分位差:上四分位数(Q3,即位于75%)与下四分位数(Q1,即位于25%)的差。Q = Q3 - Q1

3.分类数据
异众比率:是离中趋势的指标之一。异众比率指的是总体中非众数次数与总体全部次数之比。换句话说,异众比率指非众数组的频数占总频数的比例。
 

三、相对离散程度 

离散系数

又称变异系数,简单的理解就是用来衡量数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。当进行两个或多个资料离散程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其离散程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。

离散系数=标准差/平均数

 

四、分布的形状 

1.偏态系数

以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用 SK 表示偏斜系数:偏态系数小于 0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于 0,因为均值在众数之右,是一种右偏的分布,又称为正偏。偏态系数是根据众数、中位数与均值各自的性质,通过比较众数或中位数与均值来衡量偏斜度的,即偏态系数是对分布偏斜方向和程度的刻画。众数、中位数、平均数三个数的差距越大,那么偏态系数就越大。那我们在做挖掘的时候,发现这三个数差的很远,就应该知道数据的偏态系数特别大。

2.峰态系数

峰度(peakedness;kurtosis)又称峰态系数。简单来讲,它就是对数据分布平峰或尖峰程度的测度。测度峰态的统计量则是峰态系数。

1、峰态系数就是概率分布函数中,与众数概率的高低有直接关系,众数概率越高,峰态系数越大。

2、正态分布的峰态系数是 3,常常计算出来的峰态系数会跟 3 作比较,如果小于 3 则具有不足的峰度,如果大于 3 则具有过度的峰度。反正理解为大于 3 比正态分布的更尖。

3、在相同的标准差下,峰度系数越大,分布就有更多的极端值。

 

 

结语:感谢木东居士提供此次学习的平台。让我们有此次共同学习讨论的机会。   wx公众号:木东居士  

2019/07/21

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章