数据挖掘之数理统计与描述性统计

一、数理统计概念

1.基本概念释义

定义:在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体。组成总体的每个基本单元叫个体。从总体 XX 中随机抽取一部分个体 X1,X2,...,XnX_1,X_2,...,X_n ,称 X1,X2,...,XnX_1,X_2,...,X_n 为取自 XX 的容量为 nn 的样本。

例如,为了研究某厂生产的一批元件质量的好坏,规定使用寿命低于1千小时的为次品,则该批元件的全体就为总体,每个元件就是个体。实际上,数理统计学中的总体是指与总体相联系的某个(或某几个)数量指标 XX 取值的全体。比如,该批元件的使用寿命 XX 的取值全体就是研究对象的总体。显然 XX 是随机变量,这时,就称 XX 为总体。

​ 为了判断该批元件的次品率,最精确的办法是取出全部元件,对作元件的寿命试验。然而,寿命试验具有破坏性,即使某些试验是非破坏性的,因此只能从总体中抽取一部分,对nn 个个体进行试验。试验结果可得组数值集合 x1,x2,...,xn{ x_1,x_2,...,x_n } ,其中每个 xix_i 是第 ii 次抽样观察的结果。由于要根据这些观察结果来对总体进行推断,所以对每次抽样就需要有一定的要求,要求每次抽取必须是随机的、独立的,这样才能较好地反映总体情况。所谓随机的是指每个个体被抽到的机会是均等的,这样抽到的个体才具有代表性。若$ x_1,x_2,…,x_n $ 相互独立,且每个 xix_iXX 同分布,则称x1,x2,...,xnx_1,x_2,...,x_n 为简单随机样本,简称样本.通常把 nn 称为样本容量。

​ 值得注意的是,样本具有两重性,即当在一次具体地抽样后它是一组确定的数值。但在一般叙述中样本也是一组随机变量,因为抽样是随机的。一般地,用 X1,X2,...XnX_1,X_2,...,X_n , 表示随机样本,它们取到的值记为 x1,x2,...xnx_1,x_2,...,x_n 称为样本观测值。

样本作为随机变量,有一定的概率分布,这个概率分布称为样本分布。显然,样本分布取决于总体的性质和样本的性质。

2.统计量与抽样

数理统计的任务是采集和处理带有随机影响的数据,或者说收集样本并对之进行加工,以此对所研究的问题作出一定的结论,这一过程称为为统计推断。在统计推断中,对样本进行加工整理,实际上就是根据样本计算出一些量,使得这些量能够将所研究问题的信息集中起来。这种根据样本计算出的量就是下面将要定义的统计量,因此,统计量是样本的某种函数。

定义:设 X1,X2,...,XnX_1,X_2,...,X_n 是总体 XX 的一个简单随机样本, T(X1,X2,...,Xn)T(X_1, X_2,...,X_n) 为一个 nn 元连续函数,且 TT 中不包含任何关于总体的未知参数,则称 T(X1,X2,...,Xn)T(X_1, X_2,...,X_n) 是一个统计量,称统计量的分布为抽样分布。

3.常用的统计量

  1. 样本均值
    设 $X_1,X_2,…,X_n $ 是总体 XX 的一个简单随机样本,称 X=1ni=1nXi \overline X = \frac{1} {n} {\sum_{i=1}^{n}X_i} 为样本均值。通常用样本均值来估计总体分布的均值和对有关总体分布均值的假设作检验。

  2. 样本方差
    设 $X_1,X_2,…,X_n $ 是总体 XX 的一个简单随机样本,X\overline X 为样本均值,称 S2=1n1i=1n(XiX)2 S^2 = \frac{1} {n-1} {\sum_{i=1}^{n}(X_i-\overline X)^2} 为样本方差。通常用样本方差来估计总体分布的方差和对有关总体分布均值或方差的假设作检验。

  3. kk阶样本原点矩
    设 $X_1,X_2,…,X_n $ 是总体 XX 的一个简单随机样本,称 Ak=1ni=1nXik A_k = \frac{1} {n} {\sum_{i=1}^{n}X_i^k} 为样本的 kk 阶原点矩(可以看到 k=1k=1 时,相当于样本均值),通常用样本的无阶原点矩来估计总体分布的 kk 阶原点矩。

  4. kk 阶样本中心矩
    X1,X2,...,XnX_1,X_2,...,X_n 是总体 XX 的一个简单随机样本,X\overline X 为样本均值,称 Mk=1ni=1n(XiX)k M_k = \frac{1} {n} {\sum_{i=1}^{n}(X_i-\overline X)^k} 为样本的 kk 阶中心矩,通常用样本的 kk 阶中心矩来估计总体分布的 kk 阶中心矩。

其实当样本量足够大时,1/n1/n1/(n1)1/(n-1) 近似于相等。

  1. 顺序统计量
    X1,X2,...,XnX_1,X_2,...,X_n 是抽自总体 XX 的样本,x1,x2,...xnx_1,x_2,...,x_n 为样本观测值。将 x1,x2,...xnx_1,x_2,...,x_n 按照从小到大的顺序排列为 x1<=x2<=...<=xn x_{(1)}<=x_{(2)}<=...<=x_{(n)} 当样本 $X_1,X_2,…,X_n $ 取值 x1,x2,...xnx_1,x_2,...,x_n 时,定义 X(k)X_{(k)} 取值 X(k)k=1,2...,nX_{(k)}(k=1,2,...,n),称 X1,X2,...,XnX_{(1)},X_{(2)},...,X_{(n)}X1,X2,...,XnX_1,X_2,...,X_n 的顺序统计量。

显然,X1=minXiX_{(1)} =min {X_i} 是样本观察中最小的一个,称为最小顺序统计量。Xn=maxXiX_{(n)} =max {X_i} 是样本观测值中取值最大的一个,成为最大顺序统计量。称XrX_{(r)} 为第 rr 个顺序统计量。

二、描述性统计

**1.数据集中趋势的度量**
  • 平均数:
    是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。

xˉ=1ni=1nxi\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}

  • 中位数:
    是指在一组数据,按顺序排列后,居于中间位置的数。中位数描述数据中心位置的数字特征,对于对称分布的数据,均值与中位数比较接近;对于偏态分布的数据,均值与中位数不同。中位数不受异常值的影响,具有稳健性。

me={x(n+12), 当 n 为奇数时, 12(x(n2)+x(n2+1)), 当 n 为偶数时. m_{e}=\left\{\begin{array}{ll} x_{\left(\frac{n+1}{2}\right)}, & \text { 当 } n \text { 为奇数时, } \\ \frac{1}{2}\left(x_{\left(\frac{n}{2}\right)}+x_{\left(\frac{n}{2}+1\right)}\right), & \text { 当 } n \text { 为偶数时. } \end{array}\right.

举个栗子
如果数字个数为奇数,则为中间那个数字,如果中间位置上有两个数(数字为偶数个),则取两个数的平均数。比如3,7,4,9,2,5,8这组数据的中数为5;而3,7,4,9,2,5这组数据的中数则是(4+5)/2=4.5。中位数说明的是生活中的中等水平。如“成绩班级中等”

  • 频数:指同一观测值在一组数据中出现的次数(掷骰子中,一共掷了20次,出现数字5的次数)。
  • 众数:就是一组数据中,出现次数最多的那个数(几个数)。

举个栗子
在1,2,3,3,4,5这组数据的众数就是3,因为它出现了两次。众数说明的是生活中的多数情况。诸如“最佳”、“最受欢迎”、“最满意”、“举手表决”等,都与众数有关系,它反映了一种最普遍的倾向。

  • 均值 vs 中位数 vs 众数
     优点  缺点  均值  充分利用所有数据, 适用性强  容易受极端值影响  中位数  不受极端值影响  缺之敏感性  众数  不受极端值影响; 当数据具有明显的集中趋势时, 代表性好  缺之唯一性 \begin{array}{ccc} & \text { 优点 } & \text { 缺点 } \\ \text { 均值 } & \text { 充分利用所有数据, 适用性强 } & \text { 容易受极端值影响 } \\ \text { 中位数 } & \text { 不受极端值影响 } & \text { 缺之敏感性 } \\ \text { 众数 } & \text { 不受极端值影响; 当数据具有明显的集中趋势时, 代表性好 } & \text { 缺之唯一性 } \end{array}

  • 百分位数:

百分位数是中位数的推广,将数据按从小到大排列后,对于 0p<10 \leq p < 1 它的p分位点定义为
mp={x([np]+1), 当 np 不是整数时, 12(x(np)+x(np+1)), 当 np 是整数时 ,m_{p}=\left\{\begin{array}{ll} x_{([n p]+1)}, & \text { 当 } n p \text { 不是整数时, } \\ \frac{1}{2}\left(x_{(n p)}+x_{(n p+1)}\right), & \text { 当 } n p \text { 是整数时 }, \end{array}\right.

其中,[np]表示np的整数部分。所以,0.5分位数(第50百分位数)就是中位数。
​ 百分位数示意图
举个栗子
假如100个学生,将成绩从低到高排列,假设成绩从最低的1分到最高的100分,那么成绩排在第3的数值(即3分,倒数第三名)就是第3百分位数(P3),而排在第95的数值(即95分,第六名)的就是第95百分位数。

2. python实现

#NumPy系统是Python的一种开源的数值计算扩展。用来存储和处理大型矩阵。
import numpy as np 
a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_mean = np.mean(a)  #均值
a_med = np.median(a)  #中位数
print("a的平均数:",a_mean)
print("a的中位数:",a_med)
#------------------------------------------------------------
from scipy import stats   
'''
Scipy是一个高级的科学计算库,Scipy一般都是操控Numpy数组来进行科学计算,
Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、
信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。
'''
a_m1 =stats.mode(a)[0][0]
print("a的众数:",a_m)
#-------------------------------------------------------------
import pandas as pd
#将一维数组转成Pandas的Series,然后调用Pandas的mode()方法
ser = pd.Series(a)
a_m2 = ser.mode()
print("a的众数:",a_m)

3.数据离散趋势的度量
表示数据分散(离散,差异)程度的特征量有方差,标准差,极差以及变异系数等。

  • 方差:

用来计算每一个变量(观察值)与总体均数之间的差异。实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式:
s2=1n1i=1n(xixˉ)2s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}

甲、乙两人同时向目标靶射击10发子弹,甲射击的环数分别是:
 甲 4445689101010Z6667777888\begin{array}{ccccccccccc} \text { 甲 } & 4 & 4 & 4 & 5 & 6 & 8 & 9 & 10 & 10 & 10 \\ Z & 6 & 6 & 6 & 7 & 7 & 7 & 7 & 8 & 8 & 8 \end{array}

射击结果都为平均7环。因为乙的射击点较集中,射击的稳定性较好,所以乙的射击效果较好。这里的方差的作用就体现了。甲的方差为2.66,乙的方差为0.82;

  • 标准差:

样本方差的开平方成为样本标准差。
s=s2=1n1i=1n(xixˉ)2s=\sqrt{s^{2}}=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}

  • 极差:
    数据越分散,极差越大。
    R=x(n)x(1)=max(x)min(x)R=x_{(n)}-x_{(1)}=\max (x)-\min (x)

  • 变异系数:
    1、是刻画数据相对分散性的一种度量。变异系数只在平均值不为零时有定义,而且一般适用于平均值大于零的情况。变异系数也被称为标准离差率或单位风险。
    2、当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,变异系数可以消除测量尺度和量纲的影响。
    CV=100×sxˉ(%)\mathrm{CV}=100 \times \frac{s}{\bar{x}}(\%)

  • 四分位差:
    样本上、下四分位数之差称为四分位差(或半极差)。 R1=Q3Q1R_1 = Q_3 - Q_1 它也是度量样本分散性的重要数字特征,特别对于具有异常值的数据,它作为分散性具有稳健性 (见百分位数示意图)。

4.python实现

import numpy as np 
a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_var = np.var(a)  #方差
a_std1 = np.sqrt(a_var) #标准差
a_std2 = np.std(a) #标准差
a_mean = np.mean(a)  #均值
a_cv =  a_std2 /a_mean #变异系数
print("a的方差:",a_var)
print("a的方差:",a_std1)
print("a的方差:",a_std2)
print("a的变异系数:",a_cv)

5. 分布特征

引言:描述一个随机变量,不仅要说明它能够取那些值,而且还要关心它取这些值的概率(可能性)。

  • 离散变量与连续变量:

离散型随机变量是指其数值只能用自然数或整数单位计算的则为离散变量。例如, 班级人数,电脑台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得。

反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,即可取无限个数值。例如,人体测量的身高,体重等。

  • **概率函数:**就是用函数的形式来表达概率。

(大量重复试验中出现的频率来估计概率,它约等于事件出现的频数除以重复试验的次数)。 Pi=P(X=ai)i=1,2,3,4,5,6 P_i = P(X=a_i)(i=1,2,3,4,5,6) P(X=1)=1/6,这代表用概率函数的形式来表示,当随机变量X取值为1的概率为1/6,一次只能代表一个随机变量的取值。 (抛骰子游戏)
 骨子点数 123456 总计  出现的频数 161716171717100\begin{array}{l|lllllll} \text { 骨子点数 } & 1 & 2 & 3 & 4 & 5 & 6 & \text { 总计 } \\ \hline \text { 出现的频数 } & 16 & 17 & 16 & 17 & 17 & 17 & 100 \end{array}

数字1出现的概率(1/6)约等于(16/100)。

连续型随机变量的概率函数就叫做概率密度函数。

  • 分布函数:

设X是一个随机变量,对任意的实数x,令
F(x)=P(X<x)F(x)=P(X<x)

则称F(x)是随机变量X的分布函数(概率累积函数)。

密度函数与分布函数关系密度函数与分布函数关系

  • 正态分布:
    正态分布(normal distribution),也称高斯分布,是一个非常常见的连续概率分布。概率密度函数为
    测量误差、商品的重量或尺寸、某年龄人群的身高和体重均付出正态分布。
    f(x)=12πσexp{(xμ)22σ2},<x<+f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left\{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right\}, \quad-\infty<x<+\infty
    XN(μ,σ2)X 服从 N(\mu ,\sigma^2) 分布
    ​ 正态分布的概率密度函数曲线​ 正态分布的概率密度函数曲线线正态分布的概率密度函数曲线
    标准正态分布和对应区间上积分(面积)的百分比
    标准正态分布和对应区间上积分(面积)的百分比

这个概念可以推广到一般正态分布,也就是说,从 μ3σ\mu-3 \sigmaμ+3σ\mu+3 \sigma 的区间 上概率密度曲线之下的面积占总面积的 99.7%, 这就是著名的 3 σ\sigma 原则

6.偏度与峰度
偏度(skewness):也称为偏态,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。直观看来就是密度函数曲线尾部的相对长度。**偏度刻画的是分布函数(数据)的对称性。**关于均值对称的数据其偏度系数为0,右侧更分散的数据偏度系数为正,左侧更分散的数据偏度系数为负。

  1. 正态分布的偏度为0,两侧尾部长度对称。
  2. 左偏:
  • 若以bs表示偏度。bs<0称分布具有负偏离,也称左偏态;
  • 此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长;
  • 因为有少数变量值很小,使曲线左侧尾部拖得很长;
  1. 右偏:
  • bs>0称分布具有正偏离,也称右偏态;
    – 此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长;
  • 因为有少数变量值很大,使曲线右侧尾部拖得很长;

峰度(peakedness;kurtosis):说明的是分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。峰度刻画的是分布函数的集中和分散程度。
在这里插入图片描述7. 公式与python实现
样本偏度系数:
g1=n(n1)(n2)s3i=1n(xixˉ)3=n2μ3(n1)(n2)s3g_{1}=\frac{n}{(n-1)(n-2) s^{3}} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{3}=\frac{n^{2} \mu_{3}}{(n-1)(n-2) s^{3}}

样本峰度系数:
g2=n(n+1)(n1)(n2)(n3)s4i=1n(xixˉ)43(n1)2(n2)(n3)=n2(n+1)μ4(n1)(n2)(n3)s43(n1)2(n2)(n3)\begin{aligned} g_{2} &=\frac{n(n+1)}{(n-1)(n-2)(n-3) s^{4}} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{4}-3 \frac{(n-1)^{2}}{(n-2)(n-3)} \\ &=\frac{n^{2}(n+1) \mu_{4}}{(n-1)(n-2)(n-3) s^{4}}-3 \frac{(n-1)^{2}}{(n-2)(n-3)} \end{aligned}

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data = list(np.random.randn(10000))
#生成标准正态分布的随机数(10000个)
plt.hist(data,1000,facecolor='g',alpha=0.5)
'''
plt.hist(arr, bins=10, facecolor, edgecolor,alpha,histtype='bar')
bins:直方图的柱数,可选项,默认为10
alpha: 透明度
'''
plt.show()
s = pd.Series(data) #将数组转化为序列
print('偏度系数',s.skew())
print('峰度系数',s.kurt())
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章