立即學習:https://edu.csdn.net/course/play/6861/326751?utm_source=blogtoedu
網絡爬蟲
1、理解網絡爬蟲的三個流程
2、基礎網絡爬蟲的套路
網絡爬蟲:是按照一定的規則,自動的抓取萬維網信息的程序或者腳本,藉助於網絡爬蟲的技術,基本上可以做到所見即所得
典型的應用:搜索引擎,今日頭條、競品分析等。
1、發送請求:向對方服務器發送待抓取的網站的鏈接URL
2、返回請求,在不發生意外的情況下,對方服務器返回的請求內容(網頁代碼)
3、數據存儲,利用正則表達式或解析法對源代碼做清洗,並將目標數據存儲到本地(txt,csv)或者數據庫中。
常用的三個包以及函數:
import requests 發送網絡請求
import re
import bs4 解析源代碼
requests.get --基於URL 發送網絡請求
re.findall --基於正則表達式 搜尋目標數據
bs4.beautifulSoup --對HTML 源代碼做解析,便於目標數據的拆解