不用代碼玩轉爬蟲實例(2) - 抓取天眼查企業基本信息

背景

很多朋友應該都用過天眼查這個網站來進行企業信息的查詢,今天這篇文章來分享一下使用web scraper來實現天眼查這個網站企業基本信息的抓取。

例如,在天眼查裏搜索關鍵詞pcb,篩選條件爲:廣東省深圳市福田區註冊資本在200-500萬

可以搜索到非常多的企業。

隨意點擊一家企業的鏈接進去,就可以看到企業的一些基本信息。

需求分析及配置

我們的目的是需要爬取並保存這所有的企業信息。通過觀察,我們發現:

1、企業列表分成了多頁,需要進行翻頁爬取。每一頁的網址都不一樣,這個在起始頁通過設定規律網址即可實現。(規律網頁翻頁如何設置?

2、需要點擊企業名稱url進去新的頁面後,才能進行企業信息的抓取。這裏需要設置link類型的選擇器,選擇企業名稱位置的標籤。(需要點擊url的二級頁面如何設置?

3、企業的基本信息內容則比較簡單了,直接配置text類型的選擇器,鼠標點擊對應位置的信息即可。

整體的一個結構圖就是這樣:

效果展示

通過上面的三個簡單配置,就可以把搜索的所有企業基本信息都爬取下來,爬取的結果如下:

- 有朋友可能會問了,如果換一個關鍵詞,又需要另外再重新配置一下嗎?

- 當然不用!!!

比如說,這次我需要搜索關鍵詞爲水果,設置篩選條件如下:

接着把網址複製一下,將原來的起始url替換一下,注意翻頁的地方要記得進行修改

其他的不用更改,直接運行程序即可獲得新關鍵詞下的企業信息。

這樣的話,你完全也可以自己爬取想要的關鍵詞信息,是不是感覺很方便?

如果你感興趣的話,永恆君準備好了整個sitemap文件,聯繫我即可獲取(看主頁),使用方法在這篇文章末尾介紹過。

之前的整理的教程文章可以看這裏:

1、Web Scraper 使用教程(一)- 安裝

2、Web Scraper 使用教程(二)- 基本用法之安裝、配置、運行

3、Web Scraper 使用教程(三)- 基本用法(常用選擇器類型)

4、Web Scraper 使用教程(四)- 進階用法(同一個頁面爬取多個類型內容)

5、Web Scraper 使用教程(五)- 進階用法(爬取向下滾動加載頁面)

6、Web Scraper 使用教程(六)- 進階用法(網址有規律變化進行翻頁)

7、Web Scraper 使用教程(七)- 進階用法(點擊「翻頁器」進行翻頁)

8、Web Scraper 使用教程(八)- 進階用法(點擊「更多」進行翻頁)

9、Web Scraper 使用教程(九)- 進階用法(動態加載進行翻頁)

10、Web Scraper 使用教程(十)- 爬取二級頁面的內容

歡迎交流!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章