程序员的自我修养之数学基础12:协方差、相关系数与协方差矩阵

1. 协方差

之前,我们讲了随机变量的期望和方差,但是这两个都只用于描述单一的变量,也就是一维变量(可以理解为数轴上的数据点)。那么对于多维变量(平面或空间内的数据点),如何描述变量和变量之间的关系呢?比如说,对于每个学生的各科成绩,我们想知道,数学成绩和物理成绩是不是存在联系?体育好的同学是不是英语不好?协方差就是这样一种用来度量两个随机变量关系的统计量。

期望值分别为E(X)和E(Y)的随机变量X和Y的协方差定义为:

Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}

注意:上面的协方差定义中,E(X)和E(Y)是数学期望,对于确定的随机变量是个定值。

进一步化简,可得:

很容易看出,两个变量的协方差有以下计算性质:

  • Cov(X,Y)=Cov(Y,X)
  • Cov(aX,bY)=ab Cov(X,Y),其中a、b均为常数
  • Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)

那么如何利用协方差判断变量的相关性呢?

  • 当 cov(X, Y)>0时,表明 X与Y正相关;
  • 当 cov(X, Y)<0时,表明X与Y负相关;
  • 当 cov(X, Y)=0时,表明X与Y不相关,也就是X、Y独立。

下面我们通过图像更直观地理解一下上面这段话。

假设我们拿到了一组(X, Y)的样本,如下图1-A所示。{X-E(X)}和{Y-E(Y)}就是令这组样本中的X、Y各自减掉自己的期望值,得到一组新样本。显然这组新样本在保持原有的数据分布的前提下,其均值就变成了(0,0),也就是说,这组新样本的数据点分布在原点周围,如图1-B所示。接下来,我们再把图1-B中的样本数据点中的每一个点的座标相乘,也就是得到[(X-E(X)][(Y-E(Y)],令平面空间上的二维样本退化为了座标轴上的一维样本。在这个过程中,一三象限的点会分布到数轴的正半轴,二四象限的点会分布到数轴的负半部分,如下图1-c所示。而根据刚刚的公式,XY的协方差,其实就是图1-C所示的样本的期望值。从直观上看,对于图1-C所示的数据,其均值接近于0,也就是协方差值约为0,因此X和Y是几乎完全不相关,这一点从图1-A的数据点分布上也可以看出来。

下面再看一下X和Y正相关的例子,也就是说,X越大Y也越大, X越小Y也越小,

也即在某次我们同时对xy采样时,当x的采样值>x的均值时,y的样本也一般是>y的均值。经过同样的步骤之后,我们可以看到得到的一维样本如图2-C所示。显然,大部分数据点均落在x轴的正半轴,样本的期望显然为正值,也就是说样本的协方差为正,XY正相关。

在这里再补充一个我觉得很棒的解释,大家可以和前面的解释对比着理解。主要把握的就是,落在(1)和(3)区域里的数据点最终会反映在一维座标轴的正半轴,而处于(2)和(4)区域里的数据点会落在一维座标轴的负半轴,一维座标轴上数据点的期望值,即为我们求得协方差。

接下来,我们在把目光投向协方差的计算公式上:

Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}

在样本数目较大(无穷多时),根据大数定理,样本的均值会无限接近于期望值。因此,有:

\bg_white Cov(X,Y)=\sum_{i=0}^{n}\frac{[X_i-E(X)][Y_i-E(Y)]}{n-1}

结合方差的公式:

D(X)=\sum_{i=0}^{n}\frac{[X_i-E(X)]^2}{n-1}

可以推出随机变量和的方差与协方差的关系:

D(X+Y)=D(X)+D(Y)+2Cov(X,Y)

讲到这里,我们可以想想造成协方差较大的原因——除了X和Y之间的相关性之外,还可能是由于X、Y的样本偏离E(X)和E(Y)的程度较大,也就是说,X、Y各自的方差比较大。也就是说:

1)方差一定的情况下,两个变量的相关性越大,协方差的绝对值越大。

2)相关性一定的情况下,变量的方差越大,协方差的绝对值越大。

那反过来说,我们想仅通过协方差看两个变量的相关程度是不合理的,还需要在计算协方差的基础上,把方差带来的影响剔除掉。剔除的办法也很简单,就是用协方差除以变量的标准差,所得到的结果就是我们所说的相关系数,也叫标准协方差

相关系数\rho _{XY}的定义为:\rho _{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}

相关系数刻画了变量间“线性相关”的程度。对于相关系数\rho _{XY},有:

  • \left | \rho _{XY}\right |\leqslant 1
  • \left | \rho _{XY}\right |= 1,则从在常数a,b使得P \begin{Bmatrix} Y=aX+b \end{Bmatrix}{}=1,也就是说X、Y线性相关。
  • \left | \rho _{XY}\right |=0\Leftrightarrow X、Y线性不相关。
  • 若X、Y独立,\left | \rho _{XY}\right |=0。在这里需要注意,独立一定不相关,不相关不一定独立

2. 协方差矩阵

协方差只能处理二维问题,那么维数多了,我们需要考虑两两变量间的因素,计算多个协方差。因此,我们采用矩阵的形式来组织这些数据,这个矩阵就是我们通常说的协方差矩阵

对于二维的数据集,即只有X、Y两个变量,对应的协方差矩阵为:

\begin{bmatrix} Cov(X,X) & Cov(X,Y) \\ Cov(Y,X) & Cov(Y,Y) \end{bmatrix}

对于一个三维的数据集,假设一个数据集中有\begin{Bmatrix} x&y &z \end{Bmatrix}}三个维度,也就是三个变量,那对应的协方差矩阵为:

更扩展来说,对于n维数据集\boldsymbol{X}=\begin{Bmatrix} X_1,X_2,...,X_n \end{Bmatrix}^T,对应的协方差矩阵为:

\begin{bmatrix} \sigma _{11} & \sigma _{12} & ...&\sigma _{1n} \\ \sigma _{21} &\sigma _{22} &... &\sigma _{2n} \\ ... &... &... &... \\ \sigma _{n1} & ... & ... & \sigma _{nn} \end{bmatrix},其中\sigma _{ij}=Cov(X_i,X_j)

因为Cov(X,Y)=Cov(Y,X),所以,协方差矩阵是一个实对称矩阵,其对角线上是各个变量的方差

既然是一个实对称矩阵,那么它的一个重要特性就是可正交对角化。联系之学过的特征值和特征向量,我们可以知道,对于协方差矩阵\boldsymbol{\Sigma},可以表示为:

\boldsymbol{\Sigma v}=\lambda \boldsymbol{v}

其中,\boldsymbol{ v} 是\boldsymbol{\Sigma}的特征向量,\lambda是其对应的特征值。

当协方差矩阵是对角矩阵时,各个变量之间彼此的协方差均为0,也就是变量之间是不相关的,此时,特征值\lambda 等于各个维度上的方差,也就是各个变量方差。如下图所示。

这里写图片描述

如果协方差矩阵不是对角矩阵,也就是说,变量之间存在相关关系,此时,特征值仍然代表数据最大传播方向上方差的大小,也就是各个变量的方差。但是特征向量并不是平行于轴的。

这里写图片描述

 

参考:

https://cloud.tencent.com/developer/article/1342761 

https://blog.csdn.net/u011426016/article/details/82780503

https://blog.csdn.net/wuhzossibility/article/details/8087863

https://www.cnblogs.com/nsnow/p/4758202.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章