鏈家網瀋陽二手房數據分析——從數據爬取到數據分析

在這裏插入圖片描述數據爬取主要是通過使用requests實現的,鑑於爬取數據的流程簡單以及電腦的性能所限,沒有使用scrapy框架,而是使用where循環手動控制頁碼的形式,每次爬取5頁信息,並將信息寫入.csv文件中。
得到數據後,首先看一下數據的描述性變量,通過print(data_read.describe())得到如下結果:
在這裏插入圖片描述觀察網頁,發現實際上當前區域只有1542套房源,可以得知數據裏面包含了重複數據。
在這裏插入圖片描述這是由於在爬取信息時採用了手動改變頁面的形式,每次爬取後在寫入csv文件時,都會寫入一個表頭,所以造成了表頭重複,這裏需要把表頭去重。

no_repeat_df = data_read.drop_duplicates()#去掉重複行

去重後再次查看信息行數:print(norepeat_df[‘名稱’].count()),結果爲1542,數據條數與原始數據一致。
檢查缺失值,print(norepeat_df.info()),結果如下:
在這裏插入圖片描述這裏通過初步觀察,沒有發現缺失值,都爲1542。

數據可視化分析
接下來假設當前數據沒有問題,首先進行樓盤特徵分析。對於樓盤特徵,我們可以分析不同樓盤房價和數量的對比。

在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述這裏使用了pandas的網絡透視功能groupby 分組排序。樓盤特徵可視化直接採用 seaborn完成,顏色使用調色板palette 參數,顏色漸變,越淺說明越少,反之越多。可以觀察到:
二手房均價:翠堤豪園的房價最貴均價大約8.8萬/平,因爲小區在新世界樓盤板塊,且是別墅園區。其次是新世界名鑄灣畔 大約5.7萬/平,然後是新世界花園卓鑄 大約4.1萬/平,其它均低於4萬/平。
二手房房數量:從數量統計上來看,目前二手房市場上比較火熱的樓盤,世貿新五里河二手房數量最多,差不多有260多套,畢竟園區大,需求量也大。然後是新世界地塊的三個小區,都在100到150套之間。
二手房總價:通過箱型圖看到,各大樓盤房屋總價中位數大部分都集中在1000萬以下,個別小區房屋總價離散值較高,說明房屋價格特徵不是理想的正太分佈。

接下來進行面積特徵分析。
在這裏插入圖片描述在這裏插入圖片描述面積分布:通過 distplot 和 kdeplot 繪製柱狀圖觀察面積特徵的分佈情況,二手房面積主要集中在40-180平之間,同時有少量面積很大的二手房。
面積與價格的關係:通過 regplot 繪製了面積和 價格之間的散點圖,發現面積特徵基本與價格呈現線性關係,符合基本常識,面積越大,價格越高。

第三,進行房屋戶型分析。
在這裏插入圖片描述在這裏插入圖片描述房屋戶型分析:由圖可知,佔據市場主導的房屋戶型主要是3室2廳、2室2廳,三好街高端樓盤較多,多功能分區在這些高端樓盤是很普遍的;緊隨其後的是2室1廳和1室1廳,三好街同時也擁有大量老樓盤,老樓盤大多采用這種傳統戶型; 4室2廳作爲新興樓盤的戶型,對於傳統家庭(5口人)在性價比上是較爲合適的。
房屋戶型和麪積的關係:1室的房屋面積大多在100平以內,主要集中在30-80平之間,比較符合實際情況,其中出現了1室但面積在500平以上的數據,有些不符合常識,需要取看一下數據的準確性。通過temp = norepeat_df[norepeat_df[‘面積’].apply(lambda x:x>500)]和print(temp[norepeat_df[‘房屋戶型’].str.contains(‘1室’)])兩行代碼可以獲取到以下結果:
在這裏插入圖片描述推測此房屋可能屬於非住宅,爲商用房屋。
2室1廳到3室2廳房屋面積大多在80-150平左右,這類的房屋也是最多的。4室2廳的房子形成了一個小高峯,面積大多在150-280平之間,屬於大戶型,結合之前的房屋戶型分析圖,不難分析這種面積的戶型存在的合理性。

第四:進行裝修情況特徵分析。
在這裏插入圖片描述在這裏插入圖片描述由圖表觀察到,精裝修的二手房數量最多,簡裝其次,毛胚房最少。
對於價格來說,毛坯類型平均單價卻是,其次是精裝修,簡裝房價格最低。

第五:進行建成年代特徵分析。
在這裏插入圖片描述在這裏插入圖片描述源數據經count函數處理後發現,建成年代出現了“[] 139”數據,查看原始網頁,發現這類的數據在網站上就沒有錄入建成年代,因此要在繪製統計圖之前,將數據處理爲“其他”;在處理裝建造年代及裝修情況和售價之間的關係圖時,要去掉建成年代不明的數據。
建造年代分佈分析:從1990年到2020年建成的房子,二手房屋數量整體呈上升趨勢。在1998年到2000年間建成的房子,二手房屋數量大幅增加,然後直到2011年建的房子二手房數量都在較低水平波動,2012年至2016年間建造的房屋二手房數量整體呈上升趨勢,2016年達到頂峯,之後逐年下降。進入2012年後,高端樓盤開始入駐三好街區域,婚房、改善性住房及政府相關扶持政策,都是相關房源數量增加的原因。
建造年代及裝修情況和售價之間的關係分析:整個二手房房價趨勢是隨着時間增長而增長的,其中2010年以後建造的房子二手房房價相較於2010年以前有很明顯的價格上漲;2000年之前幾乎不存在毛坯房數據,說明2000年之前房屋或多或少帶有裝修;2000年之前帶裝修的二手房中,精裝二手房佔絕大多數,簡裝房反而很少。

第六:進行所在樓層特徵分析。
查看源數據,發現樓層數據爲“中樓層(共32層)”格式,這裏需要再次拆分,增加一個總樓層字段,即格式爲“所在樓層:中樓層,總樓層數:32”。

norepeat_df['所在樓層']=norepeat_df["樓層"].apply(lambda x:x.split('(')[0])
norepeat_df[‘總樓層數’]=norepeat_df["樓層"].str.replace('[\s(\u4e00-\u9fa5)]','',regex=True)

1.相對樓層分析。
在這裏插入圖片描述在這裏插入圖片描述這裏的樓層是相對於房屋的總的樓層,由圖表可以看出,高層房屋數量最多,最受人們歡迎,比較受歡迎其次是中層和低層,數量最低的是2層,這裏的2層是別墅,這也很符合大衆很少會買別墅的的購房習慣。
拋開不符合大衆購買習慣的別墅,常規住宅中,低樓層的房屋單價比較高,其次是中層,高層房價最低,但和中層房價差距不大。
結合以上兩個圖不難看出,價格最低的高層樓的數量最多,其次是價格略高一些的中層樓的數量,然後是價格較高的低層樓的數量,最少的是價格最高的別墅的數量。這說明價格對於人們購買房屋的影響是巨大的,價格和房屋數量成反比。
2.層高分析。
在這裏插入圖片描述在這裏插入圖片描述在這裏插入圖片描述
總樓層高度在超高樓層(24層以上)的數量最多,消費者更加偏好超高樓層的房屋,其次是多層(3<樓層<=8),低層(樓層<=3層)的數量最少,自2006年以後的房屋大多爲超高層,推測原因可能是超高樓層房屋價格較底層低廉,以及三好街寸金寸土,開發商也偏向於開發超高層樓盤。

第七:進行房屋朝向特徵分析。
count一下,發現原始數據不規律,需要進行處理:這裏需要將空格去掉,並且將類似於“西東”、“東西”的數據合併爲一條。
在這裏插入圖片描述在這裏插入圖片描述由圖表可知:在數量上,南北向的房子數量最多,最受人們歡迎,其次是南向的房子數,其他方向的房子數量只有極少部分。三個朝向的房子一般爲別墅,所以房子數量最少。在價格上,三個方向的別墅價格最高,其次在普通住宅中,南北方向的房子價格最高,其次是單獨朝南方向,價格最低的是東西方向的房子,也就是俗稱的“東西廂房”。

第七:進行房屋面積特徵分析。
在這裏插入圖片描述在這裏插入圖片描述總體來看房源大部分爲90-120平之間,其次是120-200平之間;不同小區戶型的佔比情況有所不同,新小區大戶型房源數量多,老小區小戶型房源數量多;所有小區的中型房源數量都處於居中位置,數量不是最多也不是最少的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章