一些前置知识,期望、方差、协方差概念及其相关公式参见
定义
皮尔逊相关系数,简称相关系数,严格来说,应该称为“线性相关系数”。这是因为,相关系数只是刻画了X,Y之间的“线性”关系程度。换句话说,假如X与Y有其它的函数关系但非线性关系时,用相关系数来衡量是不合理的。
相关系数定义为:
ρX,Y=σXσYcov(X,Y)=σXσYE((X−μX)(Y−μY))=E(X2)−E2(X)E(Y2)−E2(Y)E(XY)−E(X)E(Y)
cov为协方差,σ为标准差。
相关系数有以下性质:
- 若X,Y相互独立,则 ρX,Y=0,因为独立情况下 E(XY)=E(X)E(Y),但 ρX,Y=0 不能推出X,Y相互独立,等于0的情况,我们称X,Y不相关。进一步引申,即独立则不相关,反过来不一定。
- 第一条的例外:当(X,Y)为二维正态时,由相关系数=0能推出X,Y独立
- −1≤ρX,Y≤1,小于0时为负相关,大于0时为正相关,为当且仅当X,Y有严格线性关系时取等
应用
实际应用中,通常用r表示相关系数,假如我们有一组样本点 (x,y),怎么计算它们的相关系数?
用基于样本对均值、总体协方差和方差进行估计,也就是:
cov(X,Y)=n−1∑ni=1(Xi−Xˉ)(Yi−Yˉ)σX2=n−11i=1∑n(Xi−μX)2 (之所以除以n-1而不是除以n,是因为我们是用样本去估计总体,除n-1才是统计学上的“无偏估计”,这样能使我们以较小的样本集更好的逼近总体的标准差 )
上述两式代入定义中得,
r=∑i=1n(Xi−Xˉ)2∑i=1n(Yi−Yˉ)2∑i=1n(Xi−Xˉ)(Yi−Yˉ)
当计算出相关系数后,可以通过以下取值范围判断变量的相关强度:
|r| |
相关强度 |
0.8-1.0 |
极强相关 |
0.6-0.8 |
强相关 |
0.4-0.6 |
中等程度相关 |
0.2-0.4 |
弱相关 |
0.0-0.2 |
极弱相关或无相关 |
理解
协方差的定义是从方差而来的,X的方差是(X−μX)与(X−μX)的乘积的期望,如今把一个(X−μX)换为(Y−μY),其形式接近方差,又有X,Y二者的参与,由此得出协方差的名称。
从功能上来说,其实协方差(Covariance)就足以刻画两个变量的相关关系。
解释参见:
但是协方差是带有“单位”的,它和X,Y的数值有关,假如X的数值量级整体都远远大于Y,那么就会使得计算出来的协方差很大,它的值是不可比较的,并不能统一地度量两个随机变量的关联程度。所以我们需要将其无量纲化,也就是去除数值量级差异的影响,于是就引入了皮尔逊相关系数,其在协方差的基础上除以了两个随机变量的标准差,这样使得计算出来的值介于-1和1之间,相互之间是可比较的,不用受单位的影响。
如果对你有帮助,请点个赞:-D