相关系数——皮尔逊相关系数的公式及其理解

一些前置知识,期望、方差、协方差概念及其相关公式参见

定义

皮尔逊相关系数,简称相关系数,严格来说,应该称为“线性相关系数”。这是因为,相关系数只是刻画了X,Y之间的“线性”关系程度。换句话说,假如X与Y有其它的函数关系但非线性关系时,用相关系数来衡量是不合理的。
相关系数定义为:
ρX,Y=cov(X,Y)σXσY=E((XμX)(YμY))σXσY=E(XY)E(X)E(Y)E(X2)E2(X)E(Y2)E2(Y)\rho_{X, Y}=\frac{\operatorname{cov}(X, Y)}{\sigma_{X} \sigma_{Y}}=\frac{E\left(\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right)}{\sigma_{X} \sigma_{Y}}=\frac{E(X Y)-E(X) E(Y)}{\sqrt{E\left(X^{2}\right)-E^{2}(X)} \sqrt{E\left(Y^{2}\right)-E^{2}(Y)}}
covcov为协方差,σ\sigma为标准差。

相关系数有以下性质:

  1. XYX,Y相互独立,则 ρX,Y=0\rho_{X, Y}=0,因为独立情况下 E(XY)=E(X)E(Y)E(X Y)=E(X) E(Y),但 ρX,Y=0\rho_{X, Y}=0 不能推出X,YX,Y相互独立,等于0的情况,我们称X,YX,Y不相关。进一步引申,即独立则不相关,反过来不一定。
  2. 第一条的例外:当(X,Y)(X,Y)为二维正态时,由相关系数=0能推出XYX,Y独立
  3. 1ρX,Y1-1 \leq \rho_{X, Y} \leq 1,小于0时为负相关,大于0时为正相关,为当且仅当X,YX,Y有严格线性关系时取等

应用

实际应用中,通常用rr表示相关系数,假如我们有一组样本点 (x,y),怎么计算它们的相关系数?
用基于样本对均值、总体协方差和方差进行估计,也就是:
cov(X,Y)=ni=1(XiXˉ)(YiYˉ)n1\operatorname{cov}(X, Y)=\frac{\sum_{n}^{i=1}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{n-1}σX2=1n1i=1n(XiμX)2\sigma_{X}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\left(X_{i}-\mu_{X}\right)^{2} (之所以除以n-1而不是除以n,是因为我们是用样本去估计总体,除n-1才是统计学上的“无偏估计”,这样能使我们以较小的样本集更好的逼近总体的标准差 )

上述两式代入定义中得,
r=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2i=1n(YiYˉ)2r=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{\sqrt{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}} \sqrt{\sum_{i=1}^{n}\left(Y_{i}-\bar{Y}\right)^{2}}}

当计算出相关系数后,可以通过以下取值范围判断变量的相关强度:

|r| 相关强度
0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关

理解

协方差的定义是从方差而来的,XX的方差是(XμX)(X-\mu_{X})(XμX)(X-\mu_{X})的乘积的期望,如今把一个(XμX)(X-\mu_{X})换为(YμY)(Y-\mu_{Y}),其形式接近方差,又有XYX,Y二者的参与,由此得出协方差的名称。

从功能上来说,其实协方差(Covariance)就足以刻画两个变量的相关关系。
解释参见:

但是协方差是带有“单位”的,它和X,YX,Y的数值有关,假如XX的数值量级整体都远远大于YY,那么就会使得计算出来的协方差很大,它的值是不可比较的,并不能统一地度量两个随机变量的关联程度。所以我们需要将其无量纲化,也就是去除数值量级差异的影响,于是就引入了皮尔逊相关系数,其在协方差的基础上除以了两个随机变量的标准差,这样使得计算出来的值介于-1和1之间,相互之间是可比较的,不用受单位的影响。

如果对你有帮助,请点个赞:-D

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章