一、背景
Airbnb作为一个新兴的短租平台,颠覆了大众对于传统酒店住宿的认知,随着社区平台的不断发展壮大,为世界各国的诸多旅行者们提供了数以百万计的独特入住选择,其中包含别墅、公寓、城堡、树屋等。同时,也使得有空闲资源的房东可以进行出租,提高闲置资源利用率从而获得最大收益。
本文主要是针对2021年Airbnb在其公开数据平台http://insideairbnb.com/上发布的关于中国香港地区的房源信息数据集进行探索,目的是对香港地区民宿区域分布、价格等数据进行可视化分析,进而为不同类型的游客团体(家庭、情侣、单人行)提供一些住宿建议。
二、数据准备
本数据集来源于Airbnb于2021年在其数据公开网站http://insideairbnb.com/所发布的关于中国香港地区的房源公共信息,不包含任何私人信息。
三、初探数据
- 导入文件查看原始数据信息
通过上图,我们可以看出整个数据集包含16个特征,并且大多数特征都有6943行数据,所以对于neighbourhood_group、last_review、reviews_per_month这三个特征我们认为其中的数据存在异常,需要对其进行处理,处理思路如下:
1)neighbourhood_group这一列全部为空值,所以采取整列删除的方法;
2)通过观察可以发现last_review、reviews_per_month这两列数据中存在部分缺失的情况,可能是由于这些房源刚刚上线,暂时无人浏览或租住,这里选择直接不处理;
3)发现name这一列中少了一个数据,应该是录入缘故导致单个数据的缺失,我们选择删除name为空的数据所对应的整行数据。
经过上述处理后,源数据信息如下图所示:
- 对整个数据集的连续性字段进行描述性统计分析
从上述分析中,我们可以得出以下几点结论:
1)price均方差值较大,说明价格分布较广,平均价格在700元左右,中位数为400元左右,但是存在极大值的干扰,需要对其做后续处理;
2)minimum_nights存在极大值干扰(注意:这里默认超过365天就是异常值),需要对其进行后续处理;
3)从availability_365列的统计分析中可以看出,有超过一半的名宿全年可入住天数超过350天;
4)calculated_host_listings_count存在一些极值,而且在查看数据基本信息时可以发现,每个特征正常数据都有6942条,而host_name为6685条数据,说明可能存在一位房主同时运营多套名宿的情况;
5)number_of_reviews存在极大值,可能需要注意是否存在恶意刷评论的情况。
通过初探数据集,我们对整个数据集的结构有了一个清晰的了解,最后,我们可以将上述处理后的数据集重新保存,然后导入Tableau进一步进行可视化分析。
三、民宿分布分析
这一部分主要是针对香港各区民宿分布情况进行分析和可视化描述。
首先,通过一个地图展示各区民宿分布情况:
通过上图,我们可以发现基本上在香港各区都有民宿分布,但是无法直观的看出民宿分布较为集中的区域,所以可以再绘制一个饼图进行辅助分析:
通过上图,我们不难看出,有超过60%的民宿主要分布于油尖旺区和湾仔区。也可以说明,在这两个区,对于民宿的需求量较大,游客选择在油尖旺区和湾仔区住宿的可能性较大。
四、性价比分析
-
首先,我们可以做一个均价对比分析:
-
在第三部分,我们通过饼图可以看出民宿主要分布在油尖旺区和湾仔区,其房源均价分别为697,658,在上图中处于中间水准,性价比较高;
-
接着,我们对油尖旺区和湾仔区不同房型做一个对比分析:
通过上图,我们可以看出,油尖旺区和湾仔区Entire home/apt价格差异不是很大,而Hotel room、Private room、Shared room的价格差异在100~250之间。
五、结论
综上分析,可以得出如下结论:
- 游客如果选择Airbnb房源住宿,可优先考虑油尖旺区和湾仔区,这两个区域房源量较为充足,可选性强,性价比高;
- 如果是家庭出游,建议选择Entire home/apt房型,这一房型在两区价格上并无太大差异;
- 如果是情侣出游,可以选择湾仔区的Hotel room或油尖旺区的Private room房型,这两类房型私密性更强,性价比较高;
- 如果是个人出游,建议选择湾仔区的Shared room房型,价格较为实惠。
写在最后:
- 以上所有结论均基于第三部分中的listing文件得出,部分论点可能缺乏其他论据支撑;
- 本数据集中存在部分数据缺失情况,且无法通过其他数据源进行进一步处理分析,可能存在一定误差;
- 数据源中本身缺少各类房型最低和最高限制入住人数,所以上述结论仅具有部分实际参考意义,具体信息可自行登陆Airbnb网站进行查看;
- 本次分析仅表达个人从此数据集中得到的部分观点,不够全面,如果各位读者有更好的分析方向,可一起研究探讨。