【四二學堂】京東房產銷售數據Python分析

系列視頻待發布。

csv文件內的數據:
在這裏插入圖片描述
在這裏插入圖片描述

#數據分析--華夏幸福懷來項目分析

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df=pd.read_csv('huaxiahouse.csv',encoding='gbk')
a=df.info()
print(a)

#以title爲關鍵字,若標題內容相同,則認爲是同一記錄
b=len(df.title.unique())
print(b)

#去重,title爲準。保留第一條,刪除其它
df_dup=df.drop_duplicates(subset='title',keep='first')
c=df_dup.info()
print(c)

#去空處理。這裏是直接刪除了有空格的行。

df_notnull=df_dup.dropna()
d=df_notnull.info()

print(d)

#選擇需要的字段

df_clean=df_dup[['title','unitprice','Street','yearbuild','price']]
e=df_clean.head(10)  #默認是5條數據
print(e)

#房價統計
f=df_clean.yearbuild.value_counts()   #各年份房子的數量
print(f)

#生成統計圖

import matplotlib.pyplot as plt
plt.style.use('ggplot')
df_clean.yearbuild.hist()
plt.show()

#生成箱線圖
'''
df_clean.boxplot(column='price',by='Street')
plt.show()
'''


from matplotlib.font_manager import FontProperties
font_a=FontProperties(fname=r"c:\windows\fonts\MSYH.TTC", size=12)    #微軟雅黑
#先把需要的字體(在系統盤C盤的windows下的fonts目錄內)添加到FontProperties中。具體解決方法如下:
df_lable=df_clean.boxplot(column='yearbuild',by='Street')

for lable in df_lable.get_xticklabels():
    lable.set_fontproperties(font_a)
plt.show()


g=df_clean.unitprice.describe()
print(g)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章