urllib 库是python自带的,直接 import
from urllib import request
url = "http://www.baidu.com"
# 访问 url 获取响应数据
resp = request.urlopen(url)
print(resp.info()) # 响应头信息
print(resp.geturl()) # 主机地址
print(resp.getcode()) # 请求的状态码
# 读取内容,他返回的是字节形式的内容
html = resp.read()
# print(html)
html = html.decode("utf-8") # 解码成utf-8
print(html)
上面的代码只对没有反爬虫措施的网站可以获取到请求
其他网站会出现403 或者 405
这时,我们需要添加【头信息】headers
from urllib import request
url = "https://www.qcc.com/"
header = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"
}
# 添加headers最基本的反爬虫措施
reQ = request.Request(url,headers=header)
# 获取网页内容
page = request.urlopen(reQ)
html = page.read()
html = html.decode("utf-8")
print(html)
User-Agent 的值我们可以在浏览器获取