Airbnb 2019年紐約住房情況分析報告
實驗背景:
從2008年,越來越多的人會選擇在出行遊玩或者度假時,通過AIRBNB來進行挑選。因爲他們的民宿不僅僅有普通的城市中公寓,還有一些木屋,別墅等別具一格的房源以讓你在旅遊體驗不同的城市所帶來的文化之餘,也可以有更多不一樣的經歷。
現今,Airbnb已經將自己的服務範圍擴展至全球,對於上百萬個房源,對於這樣的大型公司來說,利用數據的分析來掌握公司運營的風向標也變得十分重要。
實驗目的:
以下對於KAGGLE所提供的這些數據的分析可以讓我們從多個維度去了解數據。
對網站經營者來說,可以對其之後的營銷方案或者是一些創意的特色服務(例如對房主的攝影附加服務)有一定的指導或者啓發作用。
對用戶即我們而言,也可以通過19年紐約城市的AIRBNB房價包括和地理位置的觀察也可以在我們下次如果選擇去紐約度假時,能更好更快的做出房源的選擇。
對房東來說他們也可以從其中窺探到整體的大方向和用戶較爲關注的房源類型和心儀的價位,然後根據這些制定自己的房源出租安排計劃。
實驗過程:
1.數據源:
此次數據是從KAGGLE上得來,鏈接如下:https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data/data
2.導入數據:
觀察得出數據共有將近40000多行,16列特徵,而在後面幾列有很多空值出現,我截取了部分放在下面
3.進行初步的觀察清洗和整理:
第一步我們先檢查空值具體出現在哪一列:
Name:填充爲0。 因爲每一酒店名對應着host_id,我們可以利用id進行分析,而name爲了分析方便,將它們都用0填充是比較快捷的方法。
Host_name: 刪除。 此列屬於偏私人化的信息,分析時爲保護隱私最好刪除。並且對分析並無太大的作用,id是我們標識個人最好的方法,唯一且不會爲空。
Last review & Reviews-per-month: 刪除&替代爲0。 爲0的原因就是說無人去評價,並且直接導致了review per month也爲空值,所以我們直接刪除該列同時將rpm填充爲0說明每月無人評價,也符合現實的情況
Id:刪除。 此次分析重點是在對房源的探索和分析,留下HOST_ID即可。ID多在分析客戶行爲,需要緊跟客戶每一步會話時使用
刪除且替換空值後,再檢查一遍數據如下:
可以發現數據已經乾淨,我們可以進行下一步的分析:
先分析room_type列具有哪些特徵:
可以看到主要業務是3種:單人間,整套房屋,還有共享房屋。
再之後是neighbourhood_group的特徵查看:
這些也是爲之後的分析維度尋找切入點。
4.特徵分析:
先從單個的特徵進行數據分析:
a. 每個host有多少的房源,將前10名列出
將結果可視化:
可以看到:
• 第一名和第二名相比於後面幾名,房源擁有量非常大,近300多套。而其是不是最受歡迎或者說Review最多的房主呢? 我們可以利用索引方法將他的房源信息提出來進行分析。
我們將最多的host_id即107434423導出,選取了其中一段:
可以看到評價數量並不是很高,並且經過求和計算,該房主所有的房源評價總和爲29條,都爲整房出租且最小租住天數爲1個月。可以知道雖然房源居於第一但是也許並不是AIRBNB 盈利的主要收入來源和用戶的主要選擇方向。
接着再考慮多重特徵之間的影響因素:
b. 各地區是否會影響房屋定價,如果有具體是哪片區域
我們先將不同地區的行提取出來,之後再合在一起進行對比分析:
可以看到曼哈頓的均值最高。這也佐證了其作爲商業中心和旅遊勝地,整體的物價帶動房租也處於紐約較高的水平,極值點影響較大,所以在後續畫圖中爲了研究整體的趨勢會去掉價格超過500的房源而重點關注人羣數量最多的部分,我會採用箱線圖和提琴圖2種不同的可視化反映出每個區的平均數和方差。
由圖得知:
• 曼哈頓無論從哪個數值上都超過了別的地區
• 從提琴圖可以看到曼哈頓和Brooklyn的提琴偏高瘦,說明價格分佈廣。而Queen, Bronx和Staten Island 價格都比較集中
• Brooklyn 和 Bronx 都處於:中位數偏下的分佈,即大部分房源價格較低,拉低了中位數,不過極大值較高,說明價高處的房源分佈廣。
c. 房價對於地區(經緯度)和房源密集程度特徵的比較
可以看到價格最高的紅色區域,對應的即是Manhattan地區,密集度高且價格也是偏高。並且可以發現Brooklyn區域的高價位房源也是由於離Manhattan較近,不排除是被Manhattan所帶動的此區域價格偏高位。
d. 房價和房屋類型的比較
提取出地區和房源類型,進行數據透視表觀察:
可以看到整間房屋出租的價格普遍偏高,將其可視化
明顯的看到整間房屋的出租價格大約是單間的一倍之多,甚至達到了多人間的2倍以上。然而單人間的價格和多人間相差不多。
但是不知道是否房源充足,所以下圖是對於 “供貨方”即不同房屋類型房源在不同地區的數量對比:
從房源的數量角度考慮,Manhattanh和Brooklyn最多,且多是整間房屋和單間。共享房屋非常少,不排除用戶選擇偏好所導致或是本地的房源條件限制。
綜上我們可以得出一個大概的結論就是從用戶出發,當你前往紐約且對性價比更看重,選擇單人間也許是一個不錯的選擇。
e. 接着我們考慮一下most_review的酒店的平均價格,探索一下是否說高價位就等同於最多評論呢?
我們先將最多評論數目的酒店進行排列,並且將價位也提取出來:
可以看到價位除了第9名偏高,其它都是屬於可接受範圍內,並沒有我們想象的那樣。計算出平均價位爲
可以得出好評率前10的酒店均價在$65.4左右。這樣在用戶進行選擇時,除了單人間的偏好,也可以考慮在此價格範圍內的酒店進行查找。
並且這10家中有9家都是單人間,可以想見單人間雖然房源數量略遜於整間房屋量(之前可視化得到的結論),但是大多數人會選擇單人間作爲出行住宿選擇。
這樣以用戶角度,在其進行選擇時,可以考慮在此價格範圍內的單間進行查找。這樣反饋較多,性價比較高,也可以相對容易的選到心儀的臨時居住地。
而從房主的角度來說,我們可以看到,房源雖然多但是不一定代表收益就會正比例增加,這還需要考慮去紐約的大部分的客戶需求。譬如將房子還是劃分爲單間也許出租機率就會大大增加。
實驗結語:
通過此次對於數據的初步分析,我們首先可以知道不同的經緯度或者說地區對於房源數量和價格的關係:即麥哈頓和布魯克林臨近麥哈頓地區的價位較高,房源也較多。
從該層面說明可以大家對此處的需求較高。那麼公司也許可以對此處的房源進行重點推送或者重點挖掘。其次從定價和房源條件可以看到大部分區域的整間房屋和單間的房源較多。而兩者的價格差別非常大,這樣對於不同的客戶公司可以採取精準營銷的策略來獲得利益最大化。
再者,我們通過分析最多評論的酒店可以得出單人間佔據領導地位,且價格適中,這樣若用戶注重性價比,可以考慮以該價位爲基準線來進行房源搜尋,這樣找到合適房源的概率較大。
但是由於該數據不可避免的侷限性,分析雖然儘可能的全面卻還是有很多可以深度挖掘的地方。譬如從Reviews的角度來說,可以之後再添加對於評論的質量包括好壞的信息彙總來更精確的判斷賓館的好壞而不是僅僅的依靠評論數,因爲不排除有水軍的存在。包括對用戶進行RFM評分來確定網站需要留住哪部分顧客,怎麼劃分那一部分的顧客。還有房源的成交量也可以利用經典的AARRR進行分析以儘可能的提升用戶的轉化率。
所以這一份報告對我們更多是一種啓發的作用,因爲公司或者項目的策略決定僅僅靠一份數據,而沒有對比或者更明確更詳盡的信息是不現實的。這也是之後再數據分析的道路上我們應該注意的事情。
以上報告的實驗所用的代碼鏈接如下:
https://github.com/twelve417/Airbnb-2019-NYV/tree/master
謝謝大家
如果大家對於這篇報告有新的思路可以留言,在之後的學習過程中如果有新的思路,我也會添加其中,讓它變得更加完備。