如何判断爬虫程序是否被反爬?python爬虫基础知识 | 网页状态码学习(小白必看)

hello大家好,我是你们的可爱丸,我们又见面啦!从今天开始我将会和大家分享一些有关python爬虫的基础知识,非常适合刚入门爬虫以及爬虫基础不是很好的朋友学习哦,希望大家能跟着我的教程,慢慢的将爬虫的基础打牢。

那么今天就是我们python爬虫基础知识的第一节课,即:如何通过网页状态码来判断我们的请求是否成功、爬虫程序是否已被网站的反爬技术检查到?
在这里插入图片描述
【视频教程】

你的爬虫程序被反爬了吗?小姐姐教你通过网页状态码识别网页访问状态 | python爬虫基础知识

【图文教程】

首先我们要知道,网页的状态码有很多,我们不可能把所有的网页状态码都记住,但是我们可以通过网页状态码的开头数字来简单判断它们是属于哪种类型的状态码。网页状态码的分类如下所示:
在这里插入图片描述

记住了网页状态码的类别,我们还应该了解一些常见的状态码,常见状态码如下所示:
在这里插入图片描述

如果你还是觉得需要记忆的东西太多了,那可爱丸教你一个绝招:你只需要记住请求成功的状态码是200,状态码除了200以外,都可以视为请求错误处理,哈哈这下你能记住了吧?
说了那么多理论知识,我们在写爬虫的时候怎样才能通过网页状态码来判断访问是否成功呢?不要慌,现在我就来给你做个示范:
比如我们要访问腾讯新闻,那么我们可以这么写:

import requests
#腾讯新闻网页地址
url = 'https://news.qq.com/'
#访问目标网页
respnse = requests.get(url)
#把请求网页的状态打印出来
print(respnse.status_code)

我们可以看到,程序返回的网页状态码为:200,那么就证明我们的访问请求成功了。
在这里插入图片描述

又比如我们要访问知乎,我们只需要把url改成知乎的网页地址即可。

import requests
# 知乎网页地址
url = 'https://www.zhihu.com/search?type=content&q=python'
#访问目标网页
respnse = requests.get(url)
#把请求网页的状态打印出来
print(respnse.status_code)

我们可以看到,程序返回的网页状态码为:400
在这里插入图片描述
再通过查询状态码分类表我们可以看到,我们的这个请求失败了,而且问题出在客户端这边,那么我们就应该采取相应的措施来使程序能够正常访问目标网页。
在这里插入图片描述
好啦,以上就是python爬虫基础第一节课的内容啦,如果你觉得本期教程对你有帮助的话,记得关注我,送我一个“在看”哦,你们的支持是我持续更新的动力!同时也欢迎大家在留言区坚持打卡学习,一起进步~
在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章