不用代碼玩轉爬蟲實例（2） - 抓取天眼查企業基本信息

背景

很多朋友應該都用過天眼查這個網站來進行企業信息的查詢，今天這篇文章來分享一下使用web scraper來實現天眼查這個網站企業基本信息的抓取。

例如，在天眼查裏搜索關鍵詞pcb，篩選條件爲：廣東省深圳市福田區註冊資本在200-500萬

可以搜索到非常多的企業。

隨意點擊一家企業的鏈接進去，就可以看到企業的一些基本信息。

需求分析及配置

我們的目的是需要爬取並保存這所有的企業信息。通過觀察，我們發現：

1、企業列表分成了多頁，需要進行翻頁爬取。每一頁的網址都不一樣，這個在起始頁通過設定規律網址即可實現。（規律網頁翻頁如何設置？）

2、需要點擊企業名稱url進去新的頁面後，才能進行企業信息的抓取。這裏需要設置link類型的選擇器，選擇企業名稱位置的標籤。（需要點擊url的二級頁面如何設置？）

3、企業的基本信息內容則比較簡單了，直接配置text類型的選擇器，鼠標點擊對應位置的信息即可。

整體的一個結構圖就是這樣：

效果展示

通過上面的三個簡單配置，就可以把搜索的所有企業基本信息都爬取下來，爬取的結果如下：

- 有朋友可能會問了，如果換一個關鍵詞，又需要另外再重新配置一下嗎？

- 當然不用！！！

比如說，這次我需要搜索關鍵詞爲水果，設置篩選條件如下：

接着把網址複製一下，將原來的起始url替換一下，注意翻頁的地方要記得進行修改

其他的不用更改，直接運行程序即可獲得新關鍵詞下的企業信息。

這樣的話，你完全也可以自己爬取想要的關鍵詞信息，是不是感覺很方便？

如果你感興趣的話，永恆君準備好了整個sitemap文件，聯繫我即可獲取（看主頁），使用方法在這篇文章末尾介紹過。

之前的整理的教程文章可以看這裏：

歡迎交流！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.