協方差與相關係數也是在時域分析時常見的兩個概念,他們都是用來描述數據“像不像”的。
1.協方差
對於信號X和Y,其協方差定義爲:
可以描述爲:(信號X減X期望)乘以(信號Y減Y期望)的期望。
當X和Y相等時,則: ,也就是方差。可見方差是協方差的一個特例。
好,我們看回來協方差。
我們有兩段信號X和Y,其波形如下圖:
信號X與信號Y
分別計算“(信號X減X期望)”和“(信號Y減Y期望)”,如下圖:
然後將這兩個信號相乘求期望,可以得到協方差。例子中的兩個信號相似度比較高,可以看到負數會和負數相乘,正數和正數相乘,最後乘出來的期望值就會很大,也就是相關性比較高。
如果Y的值取負,圖線會變成這樣:
此時兩個圖線相乘,則會是正數和負數相乘,最後乘出來的期望值就會很小(負值),此時不是不相關,而是負相關性很強。
如果圖線是這樣:
此時兩圖線相乘後的期望值爲0,表示兩圖線無關。
2.相關係數
爲什麼要提出相關係數呢,因爲有些情況協方差無法很好的反應,比如:
如上圖所示的X和Y,Y圖線的幅值比X大兩個數量級,其協方差的值可能是8。
對比下圖:
其協方差可能是0.8。
也就是第二張圖的協方差要小於第一張圖,可是明顯第二張圖兩個圖線更“像”。
此時相關係數就可以登場了。相關係數的定義也很簡單:
也就是用X、Y的協方差除以X和Y的標準差,標準差的含義在Mr.括號:時域分析——有量綱特徵值含義一網打盡中說過,標準差代表的是信號的離散程度且量綱與原始信號一致。
也就是說,在協方差除以標準差之後,由於信號幅值帶來的影響被消除了。可以這樣說:求兩段信號的相關係數時,對其中的信號做幅值上的放大和縮小,是不會影響最終結果的。
而且相關係數的結果範圍是在[-1,1]之中的,相關係數爲1代表兩段信號相似性最大,相關係數爲-1代表兩段信號相似性完全相反。這就使得我們有一個明確的衡量標準,這也是協方差達不到的效果。
5根正相關的麪條
歡迎關注我的公衆號“括號的城堡”,微信號爲“khscience”,會有更多有趣的東西分享。