使用urllib简单的发送请求

urllib 库是python自带的,直接 import

from urllib import request
url = "http://www.baidu.com"
# 访问 url 获取响应数据
resp = request.urlopen(url) 

print(resp.info()) # 响应头信息
print(resp.geturl()) # 主机地址
print(resp.getcode()) # 请求的状态码

# 读取内容,他返回的是字节形式的内容
html = resp.read()
# print(html)
html = html.decode("utf-8") # 解码成utf-8
print(html)

上面的代码只对没有反爬虫措施的网站可以获取到请求
其他网站会出现403 或者 405

在这里插入图片描述
这时,我们需要添加【头信息】headers

from urllib import request

url = "https://www.qcc.com/"
header = {
  "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"
}
# 添加headers最基本的反爬虫措施
reQ = request.Request(url,headers=header)
# 获取网页内容
page = request.urlopen(reQ)
html = page.read()
html = html.decode("utf-8")
print(html)

User-Agent 的我们可以在浏览器获取
在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章