scipy.stats.pearsonr - 皮爾森相關係數

函數:pearsonr(x,y)

功能:

    計算特徵與目標變量之間的相關度

參數說明:

1)輸入:x爲特徵,y爲目標變量.
2)輸出:r: 相關係數 [-1,1]之間,p-value: p值。
     注: p值越小,表示相關係數越顯著,一般p值在500個樣本以上時有較高的可靠性。

示例:

數據

  • 樣本數:1000
  • 特徵數:3(3維數據)
  • 重要特徵:1
from sklearn.datasets import make_regression

X,y = make_regression(n_samples=1000, n_features=3, n_informative=1, noise=100, random_state=9527)

分別計算每個特徵與標籤的相關係數

from scipy.stats import pearsonr

p1 = pearsonr(X[:,0],y)
p2 = pearsonr(X[:,1],y)
p3 = pearsonr(X[:,2],y)

可以看出X的第二個特徵是重要特徵(相關係數最高)

print(p1)
>>>(0.01293680050695129, 0.6828310401786694)
print(p2)
>>>(0.6680920624164118, 2.8345376164035335e-130)
print(p3)
>>>(0.03938982451397195, 0.21330062660673496)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章