學習筆記(24):零基礎搞定Python數據分析與挖掘-網絡爬蟲的流程和常用包

立即學習:https://edu.csdn.net/course/play/6861/326751?utm_source=blogtoedu

網絡爬蟲

 

1、理解網絡爬蟲的三個流程

2、基礎網絡爬蟲的套路

 

網絡爬蟲:是按照一定的規則,自動的抓取萬維網信息的程序或者腳本,藉助於網絡爬蟲的技術,基本上可以做到所見即所得

典型的應用:搜索引擎,今日頭條、競品分析等。

 

1、發送請求:向對方服務器發送待抓取的網站的鏈接URL

2、返回請求,在不發生意外的情況下,對方服務器返回的請求內容(網頁代碼)

3、數據存儲,利用正則表達式或解析法對源代碼做清洗,並將目標數據存儲到本地(txt,csv)或者數據庫中。

常用的三個包以及函數:

import requests 發送網絡請求

import re

import bs4  解析源代碼

 

requests.get --基於URL 發送網絡請求

re.findall  --基於正則表達式 搜尋目標數據

bs4.beautifulSoup  --對HTML 源代碼做解析,便於目標數據的拆解

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章