衡量数据“像不像”——协方差与相关系数

原創

2020-06-16 01:45

协方差与相关系数也是在时域分析时常见的两个概念，他们都是用来描述数据“像不像”的。

1.协方差

对于信号X和Y，其协方差定义为：

可以描述为：（信号X减X期望）乘以（信号Y减Y期望）的期望。

当X和Y相等时，则：，也就是方差。可见方差是协方差的一个特例。

好，我们看回来协方差。

我们有两段信号X和Y，其波形如下图：

信号X与信号Y

分别计算“（信号X减X期望）”和“（信号Y减Y期望）”，如下图：

然后将这两个信号相乘求期望，可以得到协方差。例子中的两个信号相似度比较高，可以看到负数会和负数相乘，正数和正数相乘，最后乘出来的期望值就会很大，也就是相关性比较高。

如果Y的值取负，图线会变成这样：

此时两个图线相乘，则会是正数和负数相乘，最后乘出来的期望值就会很小（负值），此时不是不相关，而是负相关性很强。

如果图线是这样：

此时两图线相乘后的期望值为0，表示两图线无关。

2.相关系数

为什么要提出相关系数呢，因为有些情况协方差无法很好的反应，比如：

如上图所示的X和Y，Y图线的幅值比X大两个数量级，其协方差的值可能是8。

对比下图：

其协方差可能是0.8。

也就是第二张图的协方差要小于第一张图，可是明显第二张图两个图线更“像”。

此时相关系数就可以登场了。相关系数的定义也很简单：

也就是用X、Y的协方差除以X和Y的标准差，标准差的含义在Mr.括号：时域分析——有量纲特征值含义一网打尽中说过，标准差代表的是信号的离散程度且量纲与原始信号一致。

也就是说，在协方差除以标准差之后，由于信号幅值带来的影响被消除了。可以这样说：求两段信号的相关系数时，对其中的信号做幅值上的放大和缩小，是不会影响最终结果的。

而且相关系数的结果范围是在[-1,1]之中的，相关系数为1代表两段信号相似性最大，相关系数为-1代表两段信号相似性完全相反。这就使得我们有一个明确的衡量标准，这也是协方差达不到的效果。

5根正相关的面条

欢迎关注我的公众号“括号的城堡”，微信号为“khscience”，会有更多有趣的东西分享。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.