背景
很多朋友應該都用過天眼查這個網站來進行企業信息的查詢,今天這篇文章來分享一下使用web scraper來實現天眼查這個網站企業基本信息的抓取。
例如,在天眼查裏搜索關鍵詞pcb,篩選條件爲:廣東省深圳市福田區註冊資本在200-500萬
可以搜索到非常多的企業。
隨意點擊一家企業的鏈接進去,就可以看到企業的一些基本信息。
需求分析及配置
我們的目的是需要爬取並保存這所有的企業信息。通過觀察,我們發現:
1、企業列表分成了多頁,需要進行翻頁爬取。每一頁的網址都不一樣,這個在起始頁通過設定規律網址即可實現。(規律網頁翻頁如何設置?)
2、需要點擊企業名稱url進去新的頁面後,才能進行企業信息的抓取。這裏需要設置link類型的選擇器,選擇企業名稱位置的標籤。(需要點擊url的二級頁面如何設置?)
3、企業的基本信息內容則比較簡單了,直接配置text類型的選擇器,鼠標點擊對應位置的信息即可。
整體的一個結構圖就是這樣:
效果展示
通過上面的三個簡單配置,就可以把搜索的所有企業基本信息都爬取下來,爬取的結果如下:
- 有朋友可能會問了,如果換一個關鍵詞,又需要另外再重新配置一下嗎?
- 當然不用!!!
比如說,這次我需要搜索關鍵詞爲水果,設置篩選條件如下:
接着把網址複製一下,將原來的起始url替換一下,注意翻頁的地方要記得進行修改
其他的不用更改,直接運行程序即可獲得新關鍵詞下的企業信息。
這樣的話,你完全也可以自己爬取想要的關鍵詞信息,是不是感覺很方便?
如果你感興趣的話,永恆君準備好了整個sitemap文件,聯繫我即可獲取(看主頁),使用方法在這篇文章末尾介紹過。
之前的整理的教程文章可以看這裏:
2、Web Scraper 使用教程(二)- 基本用法之安裝、配置、運行
3、Web Scraper 使用教程(三)- 基本用法(常用選擇器類型)
4、Web Scraper 使用教程(四)- 進階用法(同一個頁面爬取多個類型內容)
5、Web Scraper 使用教程(五)- 進階用法(爬取向下滾動加載頁面)
6、Web Scraper 使用教程(六)- 進階用法(網址有規律變化進行翻頁)
7、Web Scraper 使用教程(七)- 進階用法(點擊「翻頁器」進行翻頁)
8、Web Scraper 使用教程(八)- 進階用法(點擊「更多」進行翻頁)
9、Web Scraper 使用教程(九)- 進階用法(動態加載進行翻頁)
10、Web Scraper 使用教程(十)- 爬取二級頁面的內容
歡迎交流!