這是一個爬蟲—爬取天眼查網站的企業信息

爬蟲簡介

image
這是一個在未登錄的情況下,根據企業名稱搜索,爬取企業頁面數據的採集程序

注意: 這是一個比較簡單的爬蟲,基本上只用到了代理,沒有用到其他的反反爬技術,不過由於爬取的數據比較多,適合刷解析技能的熟練度,所以高手勿進

代碼已經上傳到GitHub上,有用還請給個星

python版本:python2.7

編碼工具:pycharm

數據存儲:mysql

爬蟲結構:廣度爬蟲

爬蟲思路:

iamge

  1. 先獲取需要採集信息的公司:

    1. 從數據庫中獲取
    2. 獲取字段:etid,etname
    3. 將獲取的數據存儲的狀態表中
    4. 從狀態表中獲取數據,並更新狀態表
  2. 拼接初始URL:

    1. 將etname和初始url進行拼接,獲得初始網址
    2. 將初始url放到一個列表中,獲取HTML的時候如何出錯,將出錯的url放到另一個列表中,進行循環獲取
  3. 請求解析初始一級頁面:

    1. 驗證查詢的公司是否正確(??)
    2. 獲取二級頁面url
    3. 將二級url放到一個列表中,獲取HTML的時候如何出錯,將出錯的url放到另一個列表中,進行循環獲取
  4. 請求解析二級頁面:

    1. 獲取的信息待定
  5. 將公司的信息存儲到數據庫中:

    1. 建表
    2. 存儲信息

所建的表:

iamge

  1. 企業主要信息: et_host_info
  2. 工商信息: et_busi_info
  3. 分支機構信息: et_branch_office
  4. 軟件著作權信息: et_container_copyright_info
  5. 網站備案信息: et_conrainer_icp_info
  6. 對外投資信息: et_foreign_investment_info
  7. 融資信息: et_rongzi_info
  8. 股東信息: et_stareholder_info
  9. 商標信息: et_trademark_info
  10. 微信公衆號信息:et_wechat_list_info
  11. 狀態表: et_name_status

看一下部分的結果圖:

iamge
iamge
iamge
iamge

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章