理解皮爾遜相關係數（Pearson Correlation Coefficient）

原創

2018-08-22 08:53

要理解Pearson相關係數，首先要理解協方差（Covariance），協方差是一個反映兩個隨機變量相關程度的指標，如果一個變量跟隨着另一個變量同時變大或者變小，那麼這兩個變量的協方差就是正值，反之相反，公式如下：

c o v (x, y) = \frac{\sum_{i = 1}^{n} (x_{i} - x_{μ}) (y_{i} - y_{μ})}{n - 1}

Pearson相關係數公式如下：

p_{x, y} = c o r (x, y) = \frac{c o v (x, y)}{δ x δ y} = \frac{E [(x - x_{μ}) (y - y_{μ})]}{δ x δ y}

由公式可知，Pearson相關係數是用協方差除以兩個變量的標準差得到的，雖然協方差能反映兩個隨機變量的相關程度（協方差大於0的時候表示兩者正相關，小於0的時候表示兩者負相關），但是協方差值的大小並不能很好地度量兩個隨機變量的關聯程度，例如，現在二維空間中分佈着一些數據，我們想知道數據點座標X軸和Y軸的相關程度，如果X與Y的相關程度較小但是數據分佈的比較離散，這樣會導致求出的協方差值較大，用這個值來度量相關程度是不合理的。
爲了更好的度量兩個隨機變量的相關程度，引入了Pearson相關係數，其在協方差的基礎上除以了兩個隨機變量的標準

δ^{2} = \frac{\sum_{i = 1}^{n} (x_{i} - x_{μ})}{n}

，容易得出，pearson是一個介於-1和1之間的值，當兩個變量的線性關係增強時，相關係數趨於1或-1；當一個變量增大，另一個變量也增大時，表明它們之間是正相關的，相關係數大於0；如果一個變量增大，另一個變量卻減小，表明它們之間是負相關的，相關係數小於0；如果相關係數等於0，表明它們之間不存在線性相關關係。《數據挖掘導論》給出了一個很好的圖來說明：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

理解皮爾遜相關係數（Pearson Correlation Coefficient）

Wireshark 安裝+使用（一）

Running Celery as root

Python 中的 str 與 unicode 編碼處理

SQLite vs MySQL vs PostgreSQL: A Comparison Of Relational Database Management Systems

PyInstaller 打包 Python 源碼爲 exe 可執行文件

CentOS 下 VNC Server 的配置與使用

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結