衡量数据“像不像”——协方差与相关系数

协方差与相关系数也是在时域分析时常见的两个概念,他们都是用来描述数据“像不像”的。

1.协方差

对于信号X和Y,其协方差定义为:

[公式]

可以描述为:(信号X减X期望)乘以(信号Y减Y期望)的期望。

当X和Y相等时,则: [公式] ,也就是方差。可见方差是协方差的一个特例。

好,我们看回来协方差。

我们有两段信号X和Y,其波形如下图:

信号X与信号Y

分别计算“(信号X减X期望)”和“(信号Y减Y期望)”,如下图:

然后将这两个信号相乘求期望,可以得到协方差。例子中的两个信号相似度比较高,可以看到负数会和负数相乘,正数和正数相乘,最后乘出来的期望值就会很大,也就是相关性比较高。

如果Y的值取负,图线会变成这样:

此时两个图线相乘,则会是正数和负数相乘,最后乘出来的期望值就会很小(负值),此时不是不相关,而是负相关性很强。

如果图线是这样:

此时两图线相乘后的期望值为0,表示两图线无关。

2.相关系数

为什么要提出相关系数呢,因为有些情况协方差无法很好的反应,比如:

如上图所示的X和Y,Y图线的幅值比X大两个数量级,其协方差的值可能是8。

对比下图:

其协方差可能是0.8。

也就是第二张图的协方差要小于第一张图,可是明显第二张图两个图线更“像”。

此时相关系数就可以登场了。相关系数的定义也很简单:

[公式]

也就是用X、Y的协方差除以X和Y的标准差,标准差的含义在Mr.括号:时域分析——有量纲特征值含义一网打尽中说过,标准差代表的是信号的离散程度且量纲与原始信号一致。

也就是说,在协方差除以标准差之后,由于信号幅值带来的影响被消除了。可以这样说:求两段信号的相关系数时,对其中的信号做幅值上的放大和缩小,是不会影响最终结果的。

而且相关系数的结果范围是在[-1,1]之中的,相关系数为1代表两段信号相似性最大,相关系数为-1代表两段信号相似性完全相反。这就使得我们有一个明确的衡量标准,这也是协方差达不到的效果。

5根正相关的面条

欢迎关注我的公众号“括号的城堡”,微信号为“khscience”,会有更多有趣的东西分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章