如何判斷爬蟲程序是否被反爬?python爬蟲基礎知識 | 網頁狀態碼學習(小白必看)

hello大家好,我是你們的可愛丸,我們又見面啦!從今天開始我將會和大家分享一些有關python爬蟲的基礎知識,非常適合剛入門爬蟲以及爬蟲基礎不是很好的朋友學習哦,希望大家能跟着我的教程,慢慢的將爬蟲的基礎打牢。

那麼今天就是我們python爬蟲基礎知識的第一節課,即:如何通過網頁狀態碼來判斷我們的請求是否成功、爬蟲程序是否已被網站的反爬技術檢查到?
在這裏插入圖片描述
【視頻教程】

你的爬蟲程序被反爬了嗎?小姐姐教你通過網頁狀態碼識別網頁訪問狀態 | python爬蟲基礎知識

【圖文教程】

首先我們要知道,網頁的狀態碼有很多,我們不可能把所有的網頁狀態碼都記住,但是我們可以通過網頁狀態碼的開頭數字來簡單判斷它們是屬於哪種類型的狀態碼。網頁狀態碼的分類如下所示:
在這裏插入圖片描述

記住了網頁狀態碼的類別,我們還應該瞭解一些常見的狀態碼,常見狀態碼如下所示:
在這裏插入圖片描述

如果你還是覺得需要記憶的東西太多了,那可愛丸教你一個絕招:你只需要記住請求成功的狀態碼是200,狀態碼除了200以外,都可以視爲請求錯誤處理,哈哈這下你能記住了吧?
說了那麼多理論知識,我們在寫爬蟲的時候怎樣才能通過網頁狀態碼來判斷訪問是否成功呢?不要慌,現在我就來給你做個示範:
比如我們要訪問騰訊新聞,那麼我們可以這麼寫:

import requests
#騰訊新聞網頁地址
url = 'https://news.qq.com/'
#訪問目標網頁
respnse = requests.get(url)
#把請求網頁的狀態打印出來
print(respnse.status_code)

我們可以看到,程序返回的網頁狀態碼爲:200,那麼就證明我們的訪問請求成功了。
在這裏插入圖片描述

又比如我們要訪問知乎,我們只需要把url改成知乎的網頁地址即可。

import requests
# 知乎網頁地址
url = 'https://www.zhihu.com/search?type=content&q=python'
#訪問目標網頁
respnse = requests.get(url)
#把請求網頁的狀態打印出來
print(respnse.status_code)

我們可以看到,程序返回的網頁狀態碼爲:400
在這裏插入圖片描述
再通過查詢狀態碼分類表我們可以看到,我們的這個請求失敗了,而且問題出在客戶端這邊,那麼我們就應該採取相應的措施來使程序能夠正常訪問目標網頁。
在這裏插入圖片描述
好啦,以上就是python爬蟲基礎第一節課的內容啦,如果你覺得本期教程對你有幫助的話,記得關注我,送我一個“在看”哦,你們的支持是我持續更新的動力!同時也歡迎大家在留言區堅持打卡學習,一起進步~
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章