系列视频待发布。
csv文件内的数据:
#数据分析--华夏幸福怀来项目分析
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
df=pd.read_csv('huaxiahouse.csv',encoding='gbk')
a=df.info()
print(a)
#以title为关键字,若标题内容相同,则认为是同一记录
b=len(df.title.unique())
print(b)
#去重,title为准。保留第一条,删除其它
df_dup=df.drop_duplicates(subset='title',keep='first')
c=df_dup.info()
print(c)
#去空处理。这里是直接删除了有空格的行。
df_notnull=df_dup.dropna()
d=df_notnull.info()
print(d)
#选择需要的字段
df_clean=df_dup[['title','unitprice','Street','yearbuild','price']]
e=df_clean.head(10) #默认是5条数据
print(e)
#房价统计
f=df_clean.yearbuild.value_counts() #各年份房子的数量
print(f)
#生成统计图
import matplotlib.pyplot as plt
plt.style.use('ggplot')
df_clean.yearbuild.hist()
plt.show()
#生成箱线图
'''
df_clean.boxplot(column='price',by='Street')
plt.show()
'''
from matplotlib.font_manager import FontProperties
font_a=FontProperties(fname=r"c:\windows\fonts\MSYH.TTC", size=12) #微软雅黑
#先把需要的字体(在系统盘C盘的windows下的fonts目录内)添加到FontProperties中。具体解决方法如下:
df_lable=df_clean.boxplot(column='yearbuild',by='Street')
for lable in df_lable.get_xticklabels():
lable.set_fontproperties(font_a)
plt.show()
g=df_clean.unitprice.describe()
print(g)