這是一個爬蟲—爬取天眼查網站的企業信息

原創

2019-02-21 14:33

爬蟲簡介

這是一個在未登錄的情況下，根據企業名稱搜索，爬取企業頁面數據的採集程序

注意: 這是一個比較簡單的爬蟲，基本上只用到了代理，沒有用到其他的反反爬技術，不過由於爬取的數據比較多，適合刷解析技能的熟練度，所以高手勿進

代碼已經上傳到GitHub上，有用還請給個星

python版本：python2.7

編碼工具：pycharm

數據存儲：mysql

爬蟲結構：廣度爬蟲

先獲取需要採集信息的公司：
1. 從數據庫中獲取
2. 獲取字段：etid，etname
3. 將獲取的數據存儲的狀態表中
4. 從狀態表中獲取數據，並更新狀態表
拼接初始URL：
1. 將etname和初始url進行拼接，獲得初始網址
2. 將初始url放到一個列表中，獲取HTML的時候如何出錯，將出錯的url放到另一個列表中，進行循環獲取
請求解析初始一級頁面：
1. 驗證查詢的公司是否正確（？？）
2. 獲取二級頁面url
3. 將二級url放到一個列表中，獲取HTML的時候如何出錯，將出錯的url放到另一個列表中，進行循環獲取
請求解析二級頁面：
1. 獲取的信息待定
將公司的信息存儲到數據庫中：
1. 建表
2. 存儲信息

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.