1. 协方差
之前,我们讲了随机变量的期望和方差,但是这两个都只用于描述单一的变量,也就是一维变量(可以理解为数轴上的数据点)。那么对于多维变量(平面或空间内的数据点),如何描述变量和变量之间的关系呢?比如说,对于每个学生的各科成绩,我们想知道,数学成绩和物理成绩是不是存在联系?体育好的同学是不是英语不好?协方差就是这样一种用来度量两个随机变量关系的统计量。
期望值分别为E(X)和E(Y)的随机变量X和Y的协方差定义为:
注意:上面的协方差定义中,E(X)和E(Y)是数学期望,对于确定的随机变量是个定值。
进一步化简,可得:
很容易看出,两个变量的协方差有以下计算性质:
- Cov(X,Y)=Cov(Y,X)
- Cov(aX,bY)=ab Cov(X,Y),其中a、b均为常数
- Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
那么如何利用协方差判断变量的相关性呢?
- 当 cov(X, Y)>0时,表明 X与Y正相关;
- 当 cov(X, Y)<0时,表明X与Y负相关;
- 当 cov(X, Y)=0时,表明X与Y不相关,也就是X、Y独立。
下面我们通过图像更直观地理解一下上面这段话。
假设我们拿到了一组(X, Y)的样本,如下图1-A所示。{X-E(X)}和{Y-E(Y)}就是令这组样本中的X、Y各自减掉自己的期望值,得到一组新样本。显然这组新样本在保持原有的数据分布的前提下,其均值就变成了(0,0),也就是说,这组新样本的数据点分布在原点周围,如图1-B所示。接下来,我们再把图1-B中的样本数据点中的每一个点的座标相乘,也就是得到[(X-E(X)][(Y-E(Y)],令平面空间上的二维样本退化为了座标轴上的一维样本。在这个过程中,一三象限的点会分布到数轴的正半轴,二四象限的点会分布到数轴的负半部分,如下图1-c所示。而根据刚刚的公式,XY的协方差,其实就是图1-C所示的样本的期望值。从直观上看,对于图1-C所示的数据,其均值接近于0,也就是协方差值约为0,因此X和Y是几乎完全不相关,这一点从图1-A的数据点分布上也可以看出来。
下面再看一下X和Y正相关的例子,也就是说,X越大Y也越大, X越小Y也越小,
也即在某次我们同时对xy采样时,当x的采样值>x的均值时,y的样本也一般是>y的均值。经过同样的步骤之后,我们可以看到得到的一维样本如图2-C所示。显然,大部分数据点均落在x轴的正半轴,样本的期望显然为正值,也就是说样本的协方差为正,XY正相关。
在这里再补充一个我觉得很棒的解释,大家可以和前面的解释对比着理解。主要把握的就是,落在(1)和(3)区域里的数据点最终会反映在一维座标轴的正半轴,而处于(2)和(4)区域里的数据点会落在一维座标轴的负半轴,一维座标轴上数据点的期望值,即为我们求得协方差。
接下来,我们在把目光投向协方差的计算公式上:
在样本数目较大(无穷多时),根据大数定理,样本的均值会无限接近于期望值。因此,有:
结合方差的公式:
可以推出随机变量和的方差与协方差的关系:
讲到这里,我们可以想想造成协方差较大的原因——除了X和Y之间的相关性之外,还可能是由于X、Y的样本偏离E(X)和E(Y)的程度较大,也就是说,X、Y各自的方差比较大。也就是说:
1)方差一定的情况下,两个变量的相关性越大,协方差的绝对值越大。
2)相关性一定的情况下,变量的方差越大,协方差的绝对值越大。
那反过来说,我们想仅通过协方差看两个变量的相关程度是不合理的,还需要在计算协方差的基础上,把方差带来的影响剔除掉。剔除的办法也很简单,就是用协方差除以变量的标准差,所得到的结果就是我们所说的相关系数,也叫标准协方差。
相关系数的定义为:
相关系数刻画了变量间“线性相关”的程度。对于相关系数,有:
- 若,则从在常数a,b使得,也就是说X、Y线性相关。
- X、Y线性不相关。
- 若X、Y独立,。在这里需要注意,独立一定不相关,不相关不一定独立。
2. 协方差矩阵
协方差只能处理二维问题,那么维数多了,我们需要考虑两两变量间的因素,计算多个协方差。因此,我们采用矩阵的形式来组织这些数据,这个矩阵就是我们通常说的协方差矩阵。
对于二维的数据集,即只有X、Y两个变量,对应的协方差矩阵为:
对于一个三维的数据集,假设一个数据集中有三个维度,也就是三个变量,那对应的协方差矩阵为:
更扩展来说,对于n维数据集,对应的协方差矩阵为:
,其中。
因为Cov(X,Y)=Cov(Y,X),所以,协方差矩阵是一个实对称矩阵,其对角线上是各个变量的方差。
既然是一个实对称矩阵,那么它的一个重要特性就是可正交对角化。联系之学过的特征值和特征向量,我们可以知道,对于协方差矩阵,可以表示为:
其中, 是的特征向量,是其对应的特征值。
当协方差矩阵是对角矩阵时,各个变量之间彼此的协方差均为0,也就是变量之间是不相关的,此时,特征值 等于各个维度上的方差,也就是各个变量方差。如下图所示。
如果协方差矩阵不是对角矩阵,也就是说,变量之间存在相关关系,此时,特征值仍然代表数据最大传播方向上方差的大小,也就是各个变量的方差。但是特征向量并不是平行于轴的。
参考:
https://cloud.tencent.com/developer/article/1342761
https://blog.csdn.net/u011426016/article/details/82780503
https://blog.csdn.net/wuhzossibility/article/details/8087863