爬蟲,就是給網站發起請求,並從相應中提取需要的數據的自動化程序
①發起請求,獲取相應
通過http庫,對目標站點進行請求。等同於自己打開瀏覽器,輸入網址
常用庫:urllib、urllib3、requests
服務器會返回請求的內容,一般爲:html、二進制文件(視頻,音頻)、文檔、json字符串等
②解析內容
尋找自己需要的信息,就是利用正則表達式或者其他庫獲取目標信息
常用庫:re、beautifulsoup4
③保存數據
將解析得到的數據持久化到文件或者數據庫中
爬蟲,就是給網站發起請求,並從相應中提取需要的數據的自動化程序
通過http庫,對目標站點進行請求。等同於自己打開瀏覽器,輸入網址
常用庫:urllib、urllib3、requests
服務器會返回請求的內容,一般爲:html、二進制文件(視頻,音頻)、文檔、json字符串等
尋找自己需要的信息,就是利用正則表達式或者其他庫獲取目標信息
常用庫:re、beautifulsoup4
將解析得到的數據持久化到文件或者數據庫中
https://stackoverflow.com/questions/419163/what-does-if-name-main-do