衡量數據“像不像”——協方差與相關係數

協方差與相關係數也是在時域分析時常見的兩個概念,他們都是用來描述數據“像不像”的。

1.協方差

對於信號X和Y,其協方差定義爲:

[公式]

可以描述爲:(信號X減X期望)乘以(信號Y減Y期望)的期望。

當X和Y相等時,則: [公式] ,也就是方差。可見方差是協方差的一個特例。

好,我們看回來協方差。

我們有兩段信號X和Y,其波形如下圖:

信號X與信號Y

分別計算“(信號X減X期望)”和“(信號Y減Y期望)”,如下圖:

然後將這兩個信號相乘求期望,可以得到協方差。例子中的兩個信號相似度比較高,可以看到負數會和負數相乘,正數和正數相乘,最後乘出來的期望值就會很大,也就是相關性比較高。

如果Y的值取負,圖線會變成這樣:

此時兩個圖線相乘,則會是正數和負數相乘,最後乘出來的期望值就會很小(負值),此時不是不相關,而是負相關性很強。

如果圖線是這樣:

此時兩圖線相乘後的期望值爲0,表示兩圖線無關。

2.相關係數

爲什麼要提出相關係數呢,因爲有些情況協方差無法很好的反應,比如:

如上圖所示的X和Y,Y圖線的幅值比X大兩個數量級,其協方差的值可能是8。

對比下圖:

其協方差可能是0.8。

也就是第二張圖的協方差要小於第一張圖,可是明顯第二張圖兩個圖線更“像”。

此時相關係數就可以登場了。相關係數的定義也很簡單:

[公式]

也就是用X、Y的協方差除以X和Y的標準差,標準差的含義在Mr.括號:時域分析——有量綱特徵值含義一網打盡中說過,標準差代表的是信號的離散程度且量綱與原始信號一致。

也就是說,在協方差除以標準差之後,由於信號幅值帶來的影響被消除了。可以這樣說:求兩段信號的相關係數時,對其中的信號做幅值上的放大和縮小,是不會影響最終結果的。

而且相關係數的結果範圍是在[-1,1]之中的,相關係數爲1代表兩段信號相似性最大,相關係數爲-1代表兩段信號相似性完全相反。這就使得我們有一個明確的衡量標準,這也是協方差達不到的效果。

5根正相關的麪條

歡迎關注我的公衆號“括號的城堡”,微信號爲“khscience”,會有更多有趣的東西分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章