數據分析實戰——統計、繪圖分析數據

原創

2018-08-27 04:12

根據獲取的數據，進行描述統計分析，並繪製直方圖

獲取數據及其描述統計分析

#獲取數據
get_housing_data()
housing_data=load_housing_data(housing_path)
# 查看數據類型，後面主要使用的是pandas包
print(type(housing_data))

# 查看前五條數據
print(housing_data.head())

# 查看數據的總體信息，可以知道列名，每一列的數據量，是否有缺失數據，每一列的數據類型，數據所使用的內存空間等
print(housing_data.info())

#可以查看數據總量（忽略空值）、均值、標準差、最小值、最大值、25%、50%、75% 展示了對應的分位數：每個分位數指明小於這個值，且指定分組的百分比
print(housing_data.describe())

繪圖分析

這裏主要使用直方圖直觀展示各個列中的數據分佈情況，通過matplotlib和pandas相關包

fig=plt.figure()
col_number=len(housing_data.ix[0])
print(housing_data.ix[:,4])
for i in range(col_number):
    print(i)
    # 每次循環創建一個subplot,並指定繪製在哪個subplot上
    ax=fig.add_subplot(4,3,i+1)
    # 將每列的列名設置爲圖標標題
    ax.set_title(housing_data.columns[i])
    #將每列的缺失數據去除，否則會引發錯誤
    ax.hist(housing_data.ix[:, i].dropna(),bins=50)
# 調整圖標的寬度和高度的百分比
plt.subplots_adjust(wspace=0,hspace=0.5)
# 最後圖標展現
plt.show()

總結

雖說只是簡單的學習過程，主要是圖標的繪製耽誤了一點時間，dataframe也可以直接調用hist繪圖，但這裏想展現的是每一列的屬性，所以琢磨了一段時間，《Sklearn 與 TensorFlow 機器學習實用指南》在Jupyter裏直接一句話調用hist，我再pychram暫時只能用這種笨方法了，期間遇到一一個錯誤

一般來講，沒有設置hist()方法中range參數的話，是默認數據最小設爲下限最大設爲上限，所以沒有出錯的可能，試了幾次，只有出現空值的第五列會出現這種情況，所以就通過dropna()方法刪除空值以後再傳入數據繪圖，問題就解決了
暫時這樣~~

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據分析實戰——統計、繪圖分析數據

獲取數據及其描述統計分析

繪圖分析

總結

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

排序和搜索（一）——python實現順序查找

排序和搜索（五）——選擇排序的python實現

python學習筆記——numpy

python算法分析---查找和排序總結

排序和搜索（二）——python實現二分查找

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結