Python 計算多個特徵之間的相關性

線性相關:主要採用皮爾遜相關係數來度量連續變量之間的線性相關強度;

線性相關係數|r|   相關程度

0<=|r|<0.3       低度相關

0.3<=|r|<0.8     中度相關

0.8<=|r|<1       高度相關

1 函數

相關分析函數:

DataFrame.corr()
Series.corr(other)

  說明:
如果由數據框調用corr方法,那麼將會計算每個列兩兩之間的相似度

如果由序列調用corr方法,那麼只是計算該序列與傳入序列之間的相關度

  返回值:
  
dataFrame調用:返回DataFrame
Series調用:  返回一個數值型,大小爲相關度

2  案例

import pandas

data=pandas.read_csv('C:\\Users\\Desktop\\test.csv')

print(data.corr())  
#由數據框調用corr方法,將會計算每個列兩兩之間的相似度,返回的是一個矩形

print(data['人口'].corr(data['文盲率']))   
#由某一列調用corr方法,只是計算該序列與傳入序列(本例中的'文盲率')之間的相關度

print(data['超市購物率','網上購物率','文盲率','人口']).corr()
#計算多列之間相似度的方法

3 讀取DataFrame數據

可以通過  print(type(data.corr()))  的方式查看得到的結果是什麼類型的

也可以通過  print(len(data,corr()))  來查看得到結果的行數和列數

每一列都有一個名稱,可以通過指定名稱來查看某一列的值

res = data.corr()

res['a']            #取a列 

res[['a','b']]     #取a、b列

也可以用數字索引

print(res[0:5])

會輸出相關性結果中的前五行數據

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章