不用代码玩转爬虫实例(2) - 抓取天眼查企业基本信息

背景

很多朋友应该都用过天眼查这个网站来进行企业信息的查询,今天这篇文章来分享一下使用web scraper来实现天眼查这个网站企业基本信息的抓取。

例如,在天眼查里搜索关键词pcb,筛选条件为:广东省深圳市福田区注册资本在200-500万

可以搜索到非常多的企业。

随意点击一家企业的链接进去,就可以看到企业的一些基本信息。

需求分析及配置

我们的目的是需要爬取并保存这所有的企业信息。通过观察,我们发现:

1、企业列表分成了多页,需要进行翻页爬取。每一页的网址都不一样,这个在起始页通过设定规律网址即可实现。(规律网页翻页如何设置?

2、需要点击企业名称url进去新的页面后,才能进行企业信息的抓取。这里需要设置link类型的选择器,选择企业名称位置的标签。(需要点击url的二级页面如何设置?

3、企业的基本信息内容则比较简单了,直接配置text类型的选择器,鼠标点击对应位置的信息即可。

整体的一个结构图就是这样:

效果展示

通过上面的三个简单配置,就可以把搜索的所有企业基本信息都爬取下来,爬取的结果如下:

- 有朋友可能会问了,如果换一个关键词,又需要另外再重新配置一下吗?

- 当然不用!!!

比如说,这次我需要搜索关键词为水果,设置筛选条件如下:

接着把网址复制一下,将原来的起始url替换一下,注意翻页的地方要记得进行修改

其他的不用更改,直接运行程序即可获得新关键词下的企业信息。

这样的话,你完全也可以自己爬取想要的关键词信息,是不是感觉很方便?

如果你感兴趣的话,永恒君准备好了整个sitemap文件,联系我即可获取(看主页),使用方法在这篇文章末尾介绍过。

之前的整理的教程文章可以看这里:

1、Web Scraper 使用教程(一)- 安装

2、Web Scraper 使用教程(二)- 基本用法之安装、配置、运行

3、Web Scraper 使用教程(三)- 基本用法(常用选择器类型)

4、Web Scraper 使用教程(四)- 进阶用法(同一个页面爬取多个类型内容)

5、Web Scraper 使用教程(五)- 进阶用法(爬取向下滚动加载页面)

6、Web Scraper 使用教程(六)- 进阶用法(网址有规律变化进行翻页)

7、Web Scraper 使用教程(七)- 进阶用法(点击「翻页器」进行翻页)

8、Web Scraper 使用教程(八)- 进阶用法(点击「更多」进行翻页)

9、Web Scraper 使用教程(九)- 进阶用法(动态加载进行翻页)

10、Web Scraper 使用教程(十)- 爬取二级页面的内容

欢迎交流!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章