爬蟲流程概述

爬蟲,就是給網站發起請求,並從相應中提取需要的數據的自動化程序

①發起請求,獲取相應

通過http庫,對目標站點進行請求。等同於自己打開瀏覽器,輸入網址

常用庫:urllib、urllib3、requests

服務器會返回請求的內容,一般爲:html、二進制文件(視頻,音頻)、文檔、json字符串等

②解析內容

尋找自己需要的信息,就是利用正則表達式或者其他庫獲取目標信息

常用庫:re、beautifulsoup4

③保存數據

將解析得到的數據持久化到文件或者數據庫中

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章