相關係數——皮爾遜相關係數的公式及其理解

原創

2020-05-19 10:57

一些前置知識，期望、方差、協方差概念及其相關公式參見

定義

皮爾遜相關係數，簡稱相關係數，嚴格來說，應該稱爲“線性相關係數”。這是因爲，相關係數只是刻畫了X，Y之間的“線性”關係程度。換句話說，假如X與Y有其它的函數關係但非線性關係時，用相關係數來衡量是不合理的。
相關係數定義爲：
$\rho_{X, Y}=\frac{\operatorname{cov}(X, Y)}{\sigma_{X} \sigma_{Y}}=\frac{E\left(\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right)}{\sigma_{X} \sigma_{Y}}=\frac{E(X Y)-E(X) E(Y)}{\sqrt{E\left(X^{2}\right)-E^{2}(X)} \sqrt{E\left(Y^{2}\right)-E^{2}(Y)}}$
$cov$ 爲協方差， $\sigma$ 爲標準差。

相關係數有以下性質：

若 $X，Y$ 相互獨立，則 $\rho_{X, Y}=0$ ，因爲獨立情況下 $E(X Y)=E(X) E(Y)$ ，但 $\rho_{X, Y}=0$ 不能推出 $X,Y$ 相互獨立，等於0的情況，我們稱 $X,Y$ 不相關。進一步引申，即獨立則不相關，反過來不一定。
第一條的例外：當 $(X,Y)$ 爲二維正態時，由相關係數=0能推出 $X，Y$ 獨立
$-1 \leq \rho_{X, Y} \leq 1$ ，小於0時爲負相關，大於0時爲正相關，爲當且僅當 $X,Y$ 有嚴格線性關係時取等

應用

實際應用中，通常用 $r$ 表示相關係數，假如我們有一組樣本點 (x,y)，怎麼計算它們的相關係數？
用基於樣本對均值、總體協方差和方差進行估計，也就是：
$\operatorname{cov}(X, Y)=\frac{\sum_{n}^{i=1}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{n-1}$ $\sigma_{X}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\left(X_{i}-\mu_{X}\right)^{2}$ （之所以除以n-1而不是除以n，是因爲我們是用樣本去估計總體，除n-1纔是統計學上的“無偏估計”，這樣能使我們以較小的樣本集更好的逼近總體的標準差）

上述兩式代入定義中得，
$r=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{\sqrt{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}} \sqrt{\sum_{i=1}^{n}\left(Y_{i}-\bar{Y}\right)^{2}}}$

當計算出相關係數後，可以通過以下取值範圍判斷變量的相關強度：

\|r\|	相關強度
0.8-1.0	極強相關
0.6-0.8	強相關
0.4-0.6	中等程度相關
0.2-0.4	弱相關
0.0-0.2	極弱相關或無相關

理解

協方差的定義是從方差而來的， $X$ 的方差是 $(X-\mu_{X})$ 與 $(X-\mu_{X})$ 的乘積的期望，如今把一個 $(X-\mu_{X})$ 換爲 $(Y-\mu_{Y})$ ，其形式接近方差，又有 $X，Y$ 二者的參與，由此得出協方差的名稱。

從功能上來說，其實協方差（Covariance）就足以刻畫兩個變量的相關關係。
解釋參見：

但是協方差是帶有“單位”的，它和 $X,Y$ 的數值有關，假如 $X$ 的數值量級整體都遠遠大於 $Y$ ，那麼就會使得計算出來的協方差很大，它的值是不可比較的，並不能統一地度量兩個隨機變量的關聯程度。所以我們需要將其無量綱化，也就是去除數值量級差異的影響，於是就引入了皮爾遜相關係數，其在協方差的基礎上除以了兩個隨機變量的標準差，這樣使得計算出來的值介於-1和1之間，相互之間是可比較的，不用受單位的影響。

如果對你有幫助，請點個贊:-D

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關係數——皮爾遜相關係數的公式及其理解

定義

應用

理解

一文讓你徹底搞懂最小二乘法（超詳細推導）

機器翻譯書籍、教材推薦 ——《機器翻譯：統計建模與深度學習方法》肖桐朱靖波著

Poetry安裝速度慢的解決辦法

概率論與數理統計基礎知識——期望、方差、協方差相關公式

相關係數——皮爾遜相關係數的公式及其理解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結