1、爬蟲
就是給網站發起請求,並從響應中提取數據的自動化程式;
-
發起請求,獲取響應
通過http庫,對目標點進行請求。等同於自己打開瀏覽器,輸入地址
常用庫:urllib、urllib3、requests
服務器會返回請求的內容,一般是:HTML、二進制文件(視頻、音頻)、文檔、json字符串等 -
解析內容
尋找自己需要的信息、就是利用正則表達式或者其他工具庫提取目標信息
常用庫:re、beautifulsoup4 -
保存數據
將解析到的數據持久化到文件過着數據庫中
2、通過瀏覽器查看請求的響應信息
訪問百度 按【F12】打開開【發者模式】切換到【Network】
這時我們按F5進行頁面刷新就會看到【請求】的【響應】