相关系数——皮尔逊相关系数的公式及其理解

原創

2020-05-19 10:57

一些前置知识，期望、方差、协方差概念及其相关公式参见

定义

皮尔逊相关系数，简称相关系数，严格来说，应该称为“线性相关系数”。这是因为，相关系数只是刻画了X，Y之间的“线性”关系程度。换句话说，假如X与Y有其它的函数关系但非线性关系时，用相关系数来衡量是不合理的。
相关系数定义为：
$\rho_{X, Y}=\frac{\operatorname{cov}(X, Y)}{\sigma_{X} \sigma_{Y}}=\frac{E\left(\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right)}{\sigma_{X} \sigma_{Y}}=\frac{E(X Y)-E(X) E(Y)}{\sqrt{E\left(X^{2}\right)-E^{2}(X)} \sqrt{E\left(Y^{2}\right)-E^{2}(Y)}}$
$cov$ 为协方差， $\sigma$ 为标准差。

应用

实际应用中，通常用 $r$ 表示相关系数，假如我们有一组样本点 (x,y)，怎么计算它们的相关系数？
用基于样本对均值、总体协方差和方差进行估计，也就是：
$\operatorname{cov}(X, Y)=\frac{\sum_{n}^{i=1}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{n-1}$ $\sigma_{X}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\left(X_{i}-\mu_{X}\right)^{2}$ （之所以除以n-1而不是除以n，是因为我们是用样本去估计总体，除n-1才是统计学上的“无偏估计”，这样能使我们以较小的样本集更好的逼近总体的标准差）

上述两式代入定义中得，
$r=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{\sqrt{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}} \sqrt{\sum_{i=1}^{n}\left(Y_{i}-\bar{Y}\right)^{2}}}$

当计算出相关系数后，可以通过以下取值范围判断变量的相关强度：

\|r\|	相关强度
0.8-1.0	极强相关
0.6-0.8	强相关
0.4-0.6	中等程度相关
0.2-0.4	弱相关
0.0-0.2	极弱相关或无相关

理解

协方差的定义是从方差而来的， $X$ 的方差是 $(X-\mu_{X})$ 与 $(X-\mu_{X})$ 的乘积的期望，如今把一个 $(X-\mu_{X})$ 换为 $(Y-\mu_{Y})$ ，其形式接近方差，又有 $X，Y$ 二者的参与，由此得出协方差的名称。

从功能上来说，其实协方差（Covariance）就足以刻画两个变量的相关关系。
解释参见：

但是协方差是带有“单位”的，它和 $X,Y$ 的数值有关，假如 $X$ 的数值量级整体都远远大于 $Y$ ，那么就会使得计算出来的协方差很大，它的值是不可比较的，并不能统一地度量两个随机变量的关联程度。所以我们需要将其无量纲化，也就是去除数值量级差异的影响，于是就引入了皮尔逊相关系数，其在协方差的基础上除以了两个随机变量的标准差，这样使得计算出来的值介于-1和1之间，相互之间是可比较的，不用受单位的影响。

如果对你有帮助，请点个赞:-D

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相关系数——皮尔逊相关系数的公式及其理解

定义

应用

理解

工作中用到的脚本合集

24-5-18 X

一文讓你徹底搞懂最小二乘法（超詳細推導）

機器翻譯書籍、教材推薦 ——《機器翻譯：統計建模與深度學習方法》肖桐朱靖波著

Poetry安裝速度慢的解決辦法

概率論與數理統計基礎知識——期望、方差、協方差相關公式

相關係數——皮爾遜相關係數的公式及其理解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結