Airbnb 2019年纽约住房情况分析报告

Airbnb 2019年纽约住房情况分析报告

实验背景:

从2008年,越来越多的人会选择在出行游玩或者度假时,通过AIRBNB来进行挑选。因为他们的民宿不仅仅有普通的城市中公寓,还有一些木屋,别墅等别具一格的房源以让你在旅游体验不同的城市所带来的文化之余,也可以有更多不一样的经历。
现今,Airbnb已经将自己的服务范围扩展至全球,对于上百万个房源,对于这样的大型公司来说,利用数据的分析来掌握公司运营的风向标也变得十分重要。

实验目的:

以下对于KAGGLE所提供的这些数据的分析可以让我们从多个维度去了解数据。
对网站经营者来说,可以对其之后的营销方案或者是一些创意的特色服务(例如对房主的摄影附加服务)有一定的指导或者启发作用。
对用户即我们而言,也可以通过19年纽约城市的AIRBNB房价包括和地理位置的观察也可以在我们下次如果选择去纽约度假时,能更好更快的做出房源的选择。
对房东来说他们也可以从其中窥探到整体的大方向和用户较为关注的房源类型和心仪的价位,然后根据这些制定自己的房源出租安排计划。

实验过程:

1.数据源:

此次数据是从KAGGLE上得来,链接如下:https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data/data

2.导入数据:

观察得出数据共有将近40000多行,16列特征,而在后面几列有很多空值出现,我截取了部分放在下面

取出数据前五行

3.进行初步的观察清洗和整理:

第一步我们先检查空值具体出现在哪一列:
在这里插入图片描述
Name:填充为0。 因为每一酒店名对应着host_id,我们可以利用id进行分析,而name为了分析方便,将它们都用0填充是比较快捷的方法。

Host_name: 删除。 此列属于偏私人化的信息,分析时为保护隐私最好删除。并且对分析并无太大的作用,id是我们标识个人最好的方法,唯一且不会为空。

Last review & Reviews-per-month: 删除&替代为0。 为0的原因就是说无人去评价,并且直接导致了review per month也为空值,所以我们直接删除该列同时将rpm填充为0说明每月无人评价,也符合现实的情况

Id:删除。 此次分析重点是在对房源的探索和分析,留下HOST_ID即可。ID多在分析客户行为,需要紧跟客户每一步会话时使用

删除且替换空值后,再检查一遍数据如下:
在这里插入图片描述
可以发现数据已经干净,我们可以进行下一步的分析:
先分析room_type列具有哪些特征:
在这里插入图片描述
可以看到主要业务是3种:单人间,整套房屋,还有共享房屋。

再之后是neighbourhood_group的特征查看:
在这里插入图片描述
这些也是为之后的分析维度寻找切入点。

4.特征分析:

先从单个的特征进行数据分析:

a. 每个host有多少的房源,将前10名列出
在这里插入图片描述
将结果可视化:

在这里插入图片描述

可以看到:

• 第一名和第二名相比于后面几名,房源拥有量非常大,近300多套。而其是不是最受欢迎或者说Review最多的房主呢? 我们可以利用索引方法将他的房源信息提出来进行分析。

我们将最多的host_id即107434423导出,选取了其中一段:

在这里插入图片描述
可以看到评价数量并不是很高,并且经过求和计算,该房主所有的房源评价总和为29条,都为整房出租且最小租住天数为1个月。可以知道虽然房源居于第一但是也许并不是AIRBNB 盈利的主要收入来源和用户的主要选择方向。

接着再考虑多重特征之间的影响因素:

b. 各地区是否会影响房屋定价,如果有具体是哪片区域

我们先将不同地区的行提取出来,之后再合在一起进行对比分析:

在这里插入图片描述
可以看到曼哈顿的均值最高。这也佐证了其作为商业中心和旅游胜地,整体的物价带动房租也处于纽约较高的水平,极值点影响较大,所以在后续画图中为了研究整体的趋势会去掉价格超过500的房源而重点关注人群数量最多的部分,我会采用箱线图和提琴图2种不同的可视化反映出每个区的平均数和方差。

在这里插入图片描述
在这里插入图片描述
由图得知:
• 曼哈顿无论从哪个数值上都超过了别的地区
• 从提琴图可以看到曼哈顿和Brooklyn的提琴偏高瘦,说明价格分布广。而Queen, Bronx和Staten Island 价格都比较集中
• Brooklyn 和 Bronx 都处于:中位数偏下的分布,即大部分房源价格较低,拉低了中位数,不过极大值较高,说明价高处的房源分布广。

c. 房价对于地区(经纬度)和房源密集程度特征的比较
在这里插入图片描述

可以看到价格最高的红色区域,对应的即是Manhattan地区,密集度高且价格也是偏高。并且可以发现Brooklyn区域的高价位房源也是由于离Manhattan较近,不排除是被Manhattan所带动的此区域价格偏高位。

d. 房价和房屋类型的比较

提取出地区和房源类型,进行数据透视表观察:
在这里插入图片描述

可以看到整间房屋出租的价格普遍偏高,将其可视化
在这里插入图片描述
明显的看到整间房屋的出租价格大约是单间的一倍之多,甚至达到了多人间的2倍以上。然而单人间的价格和多人间相差不多。
但是不知道是否房源充足,所以下图是对于 “供货方”即不同房屋类型房源在不同地区的数量对比:

在这里插入图片描述
从房源的数量角度考虑,Manhattanh和Brooklyn最多,且多是整间房屋和单间。共享房屋非常少,不排除用户选择偏好所导致或是本地的房源条件限制。

综上我们可以得出一个大概的结论就是从用户出发,当你前往纽约且对性价比更看重,选择单人间也许是一个不错的选择。

e. 接着我们考虑一下most_review的酒店的平均价格,探索一下是否说高价位就等同于最多评论呢?

我们先将最多评论数目的酒店进行排列,并且将价位也提取出来:
在这里插入图片描述
可以看到价位除了第9名偏高,其它都是属于可接受范围内,并没有我们想象的那样。计算出平均价位为

在这里插入图片描述
可以得出好评率前10的酒店均价在$65.4左右。这样在用户进行选择时,除了单人间的偏好,也可以考虑在此价格范围内的酒店进行查找。

并且这10家中有9家都是单人间,可以想见单人间虽然房源数量略逊于整间房屋量(之前可视化得到的结论),但是大多数人会选择单人间作为出行住宿选择。

这样以用户角度,在其进行选择时,可以考虑在此价格范围内的单间进行查找。这样反馈较多,性价比较高,也可以相对容易的选到心仪的临时居住地。

而从房主的角度来说,我们可以看到,房源虽然多但是不一定代表收益就会正比例增加,这还需要考虑去纽约的大部分的客户需求。譬如将房子还是划分为单间也许出租机率就会大大增加。

实验结语:

通过此次对于数据的初步分析,我们首先可以知道不同的经纬度或者说地区对于房源数量和价格的关系:即麦哈顿和布鲁克林临近麦哈顿地区的价位较高,房源也较多。
从该层面说明可以大家对此处的需求较高。那么公司也许可以对此处的房源进行重点推送或者重点挖掘。其次从定价和房源条件可以看到大部分区域的整间房屋和单间的房源较多。而两者的价格差别非常大,这样对于不同的客户公司可以采取精准营销的策略来获得利益最大化。
再者,我们通过分析最多评论的酒店可以得出单人间占据领导地位,且价格适中,这样若用户注重性价比,可以考虑以该价位为基准线来进行房源搜寻,这样找到合适房源的概率较大。

但是由于该数据不可避免的局限性,分析虽然尽可能的全面却还是有很多可以深度挖掘的地方。譬如从Reviews的角度来说,可以之后再添加对于评论的质量包括好坏的信息汇总来更精确的判断宾馆的好坏而不是仅仅的依靠评论数,因为不排除有水军的存在。包括对用户进行RFM评分来确定网站需要留住哪部分顾客,怎么划分那一部分的顾客。还有房源的成交量也可以利用经典的AARRR进行分析以尽可能的提升用户的转化率。

所以这一份报告对我们更多是一种启发的作用,因为公司或者项目的策略决定仅仅靠一份数据,而没有对比或者更明确更详尽的信息是不现实的。这也是之后再数据分析的道路上我们应该注意的事情。

以上报告的实验所用的代码链接如下:
https://github.com/twelve417/Airbnb-2019-NYV/tree/master

谢谢大家
如果大家对于这篇报告有新的思路可以留言,在之后的学习过程中如果有新的思路,我也会添加其中,让它变得更加完备。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章