衡量數據“像不像”——協方差與相關係數

原創

2020-06-16 01:45

協方差與相關係數也是在時域分析時常見的兩個概念，他們都是用來描述數據“像不像”的。

1.協方差

對於信號X和Y，其協方差定義爲：

可以描述爲：（信號X減X期望）乘以（信號Y減Y期望）的期望。

當X和Y相等時，則：，也就是方差。可見方差是協方差的一個特例。

好，我們看回來協方差。

我們有兩段信號X和Y，其波形如下圖：

信號X與信號Y

分別計算“（信號X減X期望）”和“（信號Y減Y期望）”，如下圖：

然後將這兩個信號相乘求期望，可以得到協方差。例子中的兩個信號相似度比較高，可以看到負數會和負數相乘，正數和正數相乘，最後乘出來的期望值就會很大，也就是相關性比較高。

如果Y的值取負，圖線會變成這樣：

此時兩個圖線相乘，則會是正數和負數相乘，最後乘出來的期望值就會很小（負值），此時不是不相關，而是負相關性很強。

如果圖線是這樣：

此時兩圖線相乘後的期望值爲0，表示兩圖線無關。

2.相關係數

爲什麼要提出相關係數呢，因爲有些情況協方差無法很好的反應，比如：

如上圖所示的X和Y，Y圖線的幅值比X大兩個數量級，其協方差的值可能是8。

對比下圖：

其協方差可能是0.8。

也就是第二張圖的協方差要小於第一張圖，可是明顯第二張圖兩個圖線更“像”。

此時相關係數就可以登場了。相關係數的定義也很簡單：

也就是用X、Y的協方差除以X和Y的標準差，標準差的含義在Mr.括號：時域分析——有量綱特徵值含義一網打盡中說過，標準差代表的是信號的離散程度且量綱與原始信號一致。

也就是說，在協方差除以標準差之後，由於信號幅值帶來的影響被消除了。可以這樣說：求兩段信號的相關係數時，對其中的信號做幅值上的放大和縮小，是不會影響最終結果的。

而且相關係數的結果範圍是在[-1,1]之中的，相關係數爲1代表兩段信號相似性最大，相關係數爲-1代表兩段信號相似性完全相反。這就使得我們有一個明確的衡量標準，這也是協方差達不到的效果。

5根正相關的麪條

歡迎關注我的公衆號“括號的城堡”，微信號爲“khscience”，會有更多有趣的東西分享。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.