數據分析實戰——統計、繪圖分析數據

根據獲取的數據,進行描述統計分析,並繪製直方圖

獲取數據及其描述統計分析

#獲取數據
get_housing_data()
housing_data=load_housing_data(housing_path)
# 查看數據類型,後面主要使用的是pandas包
print(type(housing_data))

這裏寫圖片描述

# 查看前五條數據
print(housing_data.head())

這裏寫圖片描述

# 查看數據的總體信息,可以知道列名,每一列的數據量,是否有缺失數據,每一列的數據類型,數據所使用的內存空間等
print(housing_data.info())

這裏寫圖片描述

#可以查看數據總量(忽略空值)、均值、標準差、最小值、最大值、25%、50%、75% 展示了對應的分位數:每個分位數指明小於這個值,且指定分組的百分比
print(housing_data.describe())

這裏寫圖片描述

繪圖分析

這裏主要使用直方圖直觀展示各個列中的數據分佈情況,通過matplotlib和pandas相關包

fig=plt.figure()
col_number=len(housing_data.ix[0])
print(housing_data.ix[:,4])
for i in range(col_number):
    print(i)
    # 每次循環創建一個subplot,並指定繪製在哪個subplot上
    ax=fig.add_subplot(4,3,i+1)
    # 將每列的列名設置爲圖標標題
    ax.set_title(housing_data.columns[i])
    #將每列的缺失數據去除,否則會引發錯誤
    ax.hist(housing_data.ix[:, i].dropna(),bins=50)
# 調整圖標的寬度和高度的百分比
plt.subplots_adjust(wspace=0,hspace=0.5)
# 最後圖標展現
plt.show()

這裏寫圖片描述

總結

雖說只是簡單的學習過程,主要是圖標的繪製耽誤了一點時間,dataframe也可以直接調用hist繪圖,但這裏想展現的是每一列的屬性,所以琢磨了一段時間,《Sklearn 與 TensorFlow 機器學習實用指南》在Jupyter裏直接一句話調用hist,我再pychram暫時只能用這種笨方法了,期間遇到一一個錯誤
這裏寫圖片描述
一般來講,沒有設置hist()方法中range參數的話,是默認數據最小設爲下限最大設爲上限,所以沒有出錯的可能,試了幾次,只有出現空值的第五列會出現這種情況,所以就通過dropna()方法刪除空值以後再傳入數據繪圖,問題就解決了
暫時這樣~~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章