不用代码玩转爬虫实例（2） - 抓取天眼查企业基本信息

背景

很多朋友应该都用过天眼查这个网站来进行企业信息的查询，今天这篇文章来分享一下使用web scraper来实现天眼查这个网站企业基本信息的抓取。

例如，在天眼查里搜索关键词pcb，筛选条件为：广东省深圳市福田区注册资本在200-500万

可以搜索到非常多的企业。

随意点击一家企业的链接进去，就可以看到企业的一些基本信息。

需求分析及配置

我们的目的是需要爬取并保存这所有的企业信息。通过观察，我们发现：

1、企业列表分成了多页，需要进行翻页爬取。每一页的网址都不一样，这个在起始页通过设定规律网址即可实现。（规律网页翻页如何设置？）

2、需要点击企业名称url进去新的页面后，才能进行企业信息的抓取。这里需要设置link类型的选择器，选择企业名称位置的标签。（需要点击url的二级页面如何设置？）

3、企业的基本信息内容则比较简单了，直接配置text类型的选择器，鼠标点击对应位置的信息即可。

整体的一个结构图就是这样：

效果展示

通过上面的三个简单配置，就可以把搜索的所有企业基本信息都爬取下来，爬取的结果如下：

- 有朋友可能会问了，如果换一个关键词，又需要另外再重新配置一下吗？

- 当然不用！！！

比如说，这次我需要搜索关键词为水果，设置筛选条件如下：

接着把网址复制一下，将原来的起始url替换一下，注意翻页的地方要记得进行修改

其他的不用更改，直接运行程序即可获得新关键词下的企业信息。

这样的话，你完全也可以自己爬取想要的关键词信息，是不是感觉很方便？

如果你感兴趣的话，永恒君准备好了整个sitemap文件，联系我即可获取（看主页），使用方法在这篇文章末尾介绍过。

之前的整理的教程文章可以看这里：

欢迎交流！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.