scipy.stats.pearsonr - 皮尔森相关系数

函数:pearsonr(x,y)

功能:

    计算特征与目标变量之间的相关度

参数说明:

1)输入:x为特征,y为目标变量.
2)输出:r: 相关系数 [-1,1]之间,p-value: p值。
     注: p值越小,表示相关系数越显著,一般p值在500个样本以上时有较高的可靠性。

示例:

数据

  • 样本数:1000
  • 特征数:3(3维数据)
  • 重要特征:1
from sklearn.datasets import make_regression

X,y = make_regression(n_samples=1000, n_features=3, n_informative=1, noise=100, random_state=9527)

分别计算每个特征与标签的相关系数

from scipy.stats import pearsonr

p1 = pearsonr(X[:,0],y)
p2 = pearsonr(X[:,1],y)
p3 = pearsonr(X[:,2],y)

可以看出X的第二个特征是重要特征(相关系数最高)

print(p1)
>>>(0.01293680050695129, 0.6828310401786694)
print(p2)
>>>(0.6680920624164118, 2.8345376164035335e-130)
print(p3)
>>>(0.03938982451397195, 0.21330062660673496)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章