函数:pearsonr(x,y)
功能:
计算特征与目标变量之间的相关度
参数说明:
1)输入:x为特征,y为目标变量.
2)输出:r: 相关系数 [-1,1]之间,p-value: p值。
注: p值越小,表示相关系数越显著,一般p值在500个样本以上时有较高的可靠性。
示例:
数据
- 样本数:1000
- 特征数:3(3维数据)
- 重要特征:1
from sklearn.datasets import make_regression
X,y = make_regression(n_samples=1000, n_features=3, n_informative=1, noise=100, random_state=9527)
分别计算每个特征与标签的相关系数
from scipy.stats import pearsonr
p1 = pearsonr(X[:,0],y)
p2 = pearsonr(X[:,1],y)
p3 = pearsonr(X[:,2],y)
可以看出X的第二个特征是重要特征(相关系数最高)
print(p1)
>>>(0.01293680050695129, 0.6828310401786694)
print(p2)
>>>(0.6680920624164118, 2.8345376164035335e-130)
print(p3)
>>>(0.03938982451397195, 0.21330062660673496)