Python系列爬虫之携程旅游景点数据爬取与可视化

原創

原创

2021-04-16 21:24

image.png

前言

今天我们就用爬虫携程旅游景点数据爬取与可视化并做简单的数据可视化分析呗。让我们愉快地开始吧~

开发工具

Python版本：3.6.4

环境搭建

安装Python并添加到环境变量，pip安装需要的相关模块即可。

数据爬取

首先，我们来明确一下我们想要爬取的数据是哪些，这里为了方便起见，我们只爬取北京市的旅游景点数据，如下图所示：

图片

即我们需要爬取的数据为北京市所有景点的名称，位置，评分等数据。明确了我们的爬取目标，就可以开始写代码啦~

代码实现起来其实也很简单，可以发现景点信息页的url变化规律如下：

'https://you.ctrip.com/sight/beijing1/s0-p页码.html#sightname'

那么我们只需要逐一请求所有相关网页，并借助bs4解析并提取我们需要的数据即可。同时，为了避免爬虫被封，我们每请求10次网页，就更换一个代理，代理来源则是网上爬取的免费代理。

具体而言，代码实现如下：

'''携程旅游景点爬虫'''

代码运行效果如下：

图片

All done~完整源代码详见个人简介或者私信获取相关文件。

数据可视化

老规矩，写完爬虫可视化一波数据，方便起见，还是用刚刚爬取的北京景点数据吧~

首先，把所有景点的位置信息做成词云看看？

图片

看看景点的评分分布呗：

图片

再来统计一下景区评级分布呗：

图片

其中，5A级景区有：

故宫

再来看看价格分布呗：

图片

最后看看评论最多的8个景区是啥如何？

图片

看完篇文章喜欢的朋友点个爱心支持一下，关注我每天分享Python数据爬虫案例，下篇文章分享是Python爬虫Github用户数据

All done~完整源代码详见个人简介或者私信获取相关文件

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python系列爬虫之携程旅游景点数据爬取与可视化

前言

开发工具

环境搭建

数据爬取

数据可视化

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

[转帖]

python列出centos7内存使用前50的进程信息

Garnet：微软官方基于.NET开源的高性能分布式缓存存储数据库

Flink执行图

Java响应式编程

评估统计算法在银行伪造钞票检测中的价值

Java ThreadPoolShutdown

個人開發者如何入門 Java 異步編程

在Linux操作系統的安裝過程中，如何選擇合適的發行版

前端面試題 - vue的雙向綁定原理是什麼？

5月21日相聚上海張江！與文心大模型一起共建大模型產業應用生態圈

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結