函數:pearsonr(x,y)
功能:
計算特徵與目標變量之間的相關度
參數說明:
1)輸入:x爲特徵,y爲目標變量.
2)輸出:r: 相關係數 [-1,1]之間,p-value: p值。
注: p值越小,表示相關係數越顯著,一般p值在500個樣本以上時有較高的可靠性。
示例:
數據
- 樣本數:1000
- 特徵數:3(3維數據)
- 重要特徵:1
from sklearn.datasets import make_regression
X,y = make_regression(n_samples=1000, n_features=3, n_informative=1, noise=100, random_state=9527)
分別計算每個特徵與標籤的相關係數
from scipy.stats import pearsonr
p1 = pearsonr(X[:,0],y)
p2 = pearsonr(X[:,1],y)
p3 = pearsonr(X[:,2],y)
可以看出X的第二個特徵是重要特徵(相關係數最高)
print(p1)
>>>(0.01293680050695129, 0.6828310401786694)
print(p2)
>>>(0.6680920624164118, 2.8345376164035335e-130)
print(p3)
>>>(0.03938982451397195, 0.21330062660673496)