皮尔逊相关系数与p值

1.皮尔逊相关系数

假设有两个变量x,y
则两者之间的皮尔逊相关系数为:
在这里插入图片描述
皮尔逊相关系数衡量的是两者之间的相关关系,取值范围为[-1,1],取值为正表示正相关,取值为负表示是负相关,同时,皮尔逊相关系数衡量的是两个变量之间的线性关系,如下图,横轴与纵轴变量有明显的线性关系,
在这里插入图片描述
由公式计算出来相关系数为 0.9836,高度相关性;
而当两个变量之间有相关关系但是不是线性时,用皮尔逊相关系数衡量则会出现较大的偏差 ,比如
下图,设横轴为x, 纵轴为y,且 y = x*x在这里插入图片描述
两变量之间有非线性的相关性,但如果此时用皮尔逊相关系数衡量,则相关系数为0
所以,非线性相关关系不能用皮尔逊相关系数衡量
通常情况下通过以下取值范围判断变量的相关强度:
相关系数 (均取绝对值后):
0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关

2.显著性水平P值

讨论两变量是否相关必须讨论显著性水平,不谈P值之谈相关系数大小是无意义的,两者之间的相关关系可能只是偶然因素引起的,所以我们要对两个变量之间的相关关系的显著性水平进行判断;

采用假设检验的方法:
原假设H0: R=0 两变量之间不存在线性关联
备择假设H1: R不等于0,两变量之间存在线性关联

根据假设检验方法,在零假设成立的条件下,即假设两变量不存在相关性的前提下,计算出两变量不存在相关性的概率值(P值),如果这个P值很小,说明两变量不存在相关性的概率很小,我们就可以拒绝原假设,接受备择假设,那么这里我们就需要一个阈值

通常以5%为阈值(这里的阈值也称为显著水平),如果 p<0.05,则说明可以拒绝原假设。接受备择假设,即两变量之间存在显著的线性关联

所以当p值远大于 0.05时,即使相关系数很大,我们也不能说两变量之间存在明显相关性;而且一般要先在p值满足要求的前提下再去谈 相关系数的大小

本人的粗浅认识,若有错误,劳烦指正.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章