爬蟲總結

爬蟲代碼編寫時需要注意一些各項:
1、重試下載
5xx錯誤發生時,需要考慮重試下載,重試幾次也可以自定義
400錯誤發生時,也有可能需要考慮重試

2、控制爬蟲的深度
有些網站會出現一些虛擬的地址,甚至能出現無限度的子頁面,這時需要控制爬蟲爬取的深度,當爬取深度超過一定數字後就不再繼續爬取子頁面,轉爲爬取其他頁面

3、避免重複下載
頁面之間的鏈接可能存在相互引用的情況,這樣可能會導致爬蟲循環爬取頁面,導致頁面被重複下載

4、下載緩存
a) 爬蟲腳本以及對網頁內容的解析並不能一次到位,添加了緩存可以避免發生程序異常時又從頭開始爬取網頁內容,會嚴重浪費時間
b) 網頁內容可能會不定期更新,加了緩存之後,爬蟲可以選出發生變化了的內容進行爬取
c) 緩存可以是磁盤、也可以是redis等緩存,還可以對緩存數據做壓縮處理
d) 清理緩存過期數據

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章