1. 协方差

之前，我们讲了随机变量的期望和方差，但是这两个都只用于描述单一的变量，也就是一维变量（可以理解为数轴上的数据点）。那么对于多维变量（平面或空间内的数据点），如何描述变量和变量之间的关系呢？比如说，对于每个学生的各科成绩，我们想知道，数学成绩和物理成绩是不是存在联系？体育好的同学是不是英语不好？协方差就是这样一种用来度量两个随机变量关系的统计量。

期望值分别为E(X)和E(Y)的随机变量X和Y的协方差定义为：

注意：上面的协方差定义中，E(X)和E(Y)是数学期望，对于确定的随机变量是个定值。

进一步化简，可得：

很容易看出，两个变量的协方差有以下计算性质：

Cov(X,Y)=Cov(Y,X)
Cov(aX,bY)=ab Cov(X,Y)，其中a、b均为常数
Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)

那么如何利用协方差判断变量的相关性呢？

当 cov(X, Y)>0时，表明 X与Y正相关；
当 cov(X, Y)<0时，表明X与Y负相关；
当 cov(X, Y)=0时，表明X与Y不相关，也就是X、Y独立。

下面我们通过图像更直观地理解一下上面这段话。

假设我们拿到了一组（X, Y）的样本，如下图1-A所示。{X-E(X)}和{Y-E(Y)}就是令这组样本中的X、Y各自减掉自己的期望值，得到一组新样本。显然这组新样本在保持原有的数据分布的前提下，其均值就变成了(0,0)，也就是说，这组新样本的数据点分布在原点周围，如图1-B所示。接下来，我们再把图1-B中的样本数据点中的每一个点的座标相乘，也就是得到[(X-E(X)][(Y-E(Y)]，令平面空间上的二维样本退化为了座标轴上的一维样本。在这个过程中，一三象限的点会分布到数轴的正半轴，二四象限的点会分布到数轴的负半部分，如下图1-c所示。而根据刚刚的公式，XY的协方差，其实就是图1-C所示的样本的期望值。从直观上看，对于图1-C所示的数据，其均值接近于0，也就是协方差值约为0，因此X和Y是几乎完全不相关，这一点从图1-A的数据点分布上也可以看出来。

下面再看一下X和Y正相关的例子，也就是说，X越大Y也越大， X越小Y也越小，

也即在某次我们同时对xy采样时，当x的采样值＞x的均值时，y的样本也一般是＞y的均值。经过同样的步骤之后，我们可以看到得到的一维样本如图2-C所示。显然，大部分数据点均落在x轴的正半轴，样本的期望显然为正值，也就是说样本的协方差为正，XY正相关。

在这里再补充一个我觉得很棒的解释，大家可以和前面的解释对比着理解。主要把握的就是，落在（1）和（3）区域里的数据点最终会反映在一维座标轴的正半轴，而处于（2）和（4）区域里的数据点会落在一维座标轴的负半轴，一维座标轴上数据点的期望值，即为我们求得协方差。

接下来，我们在把目光投向协方差的计算公式上：

在样本数目较大（无穷多时），根据大数定理，样本的均值会无限接近于期望值。因此，有：

$\bg_white Cov(X,Y)=\sum_{i=0}^{n}\frac{[X_i-E(X)][Y_i-E(Y)]}{n-1}$

结合方差的公式：

$D(X)=\sum_{i=0}^{n}\frac{[X_i-E(X)]^2}{n-1}$

可以推出随机变量和的方差与协方差的关系：

讲到这里，我们可以想想造成协方差较大的原因——除了X和Y之间的相关性之外，还可能是由于X、Y的样本偏离E(X)和E(Y)的程度较大，也就是说，X、Y各自的方差比较大。也就是说：

1）方差一定的情况下，两个变量的相关性越大，协方差的绝对值越大。

2）相关性一定的情况下，变量的方差越大，协方差的绝对值越大。

那反过来说，我们想仅通过协方差看两个变量的相关程度是不合理的，还需要在计算协方差的基础上，把方差带来的影响剔除掉。剔除的办法也很简单，就是用协方差除以变量的标准差，所得到的结果就是我们所说的相关系数，也叫标准协方差。

相关系数 $\rho _{XY}$ 的定义为： $\rho _{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$

相关系数刻画了变量间“线性相关”的程度。对于相关系数 $\rho _{XY}$ ，有：

$\left | \rho _{XY}\right |\leqslant 1$
若 $\left | \rho _{XY}\right |= 1$ ，则从在常数a,b使得 $P \begin{Bmatrix} Y=aX+b \end{Bmatrix}{}=1$ ，也就是说X、Y线性相关。
$\left | \rho _{XY}\right |=0\Leftrightarrow$ X、Y线性不相关。
若X、Y独立， $\left | \rho _{XY}\right |=0$ 。在这里需要注意，独立一定不相关，不相关不一定独立。

2. 协方差矩阵

协方差只能处理二维问题，那么维数多了，我们需要考虑两两变量间的因素，计算多个协方差。因此，我们采用矩阵的形式来组织这些数据，这个矩阵就是我们通常说的协方差矩阵。

对于二维的数据集，即只有X、Y两个变量，对应的协方差矩阵为：

$\begin{bmatrix} Cov(X,X) & Cov(X,Y) \\ Cov(Y,X) & Cov(Y,Y) \end{bmatrix}$

对于一个三维的数据集，假设一个数据集中有 $\begin{Bmatrix} x&y &z \end{Bmatrix}}$ 三个维度，也就是三个变量，那对应的协方差矩阵为：

更扩展来说，对于n维数据集 $\boldsymbol{X}=\begin{Bmatrix} X_1,X_2,...,X_n \end{Bmatrix}^T$ ，对应的协方差矩阵为：

$\begin{bmatrix} \sigma _{11} & \sigma _{12} & ...&\sigma _{1n} \\ \sigma _{21} &\sigma _{22} &... &\sigma _{2n} \\ ... &... &... &... \\ \sigma _{n1} & ... & ... & \sigma _{nn} \end{bmatrix}$ ，其中 $\sigma _{ij}=Cov(X_i,X_j)$ 。