urllib 庫是python自帶的,直接 import
from urllib import request
url = "http://www.baidu.com"
# 訪問 url 獲取響應數據
resp = request.urlopen(url)
print(resp.info()) # 響應頭信息
print(resp.geturl()) # 主機地址
print(resp.getcode()) # 請求的狀態碼
# 讀取內容,他返回的是字節形式的內容
html = resp.read()
# print(html)
html = html.decode("utf-8") # 解碼成utf-8
print(html)
上面的代碼只對沒有反爬蟲措施的網站可以獲取到請求
其他網站會出現403 或者 405
這時,我們需要添加【頭信息】headers
from urllib import request
url = "https://www.qcc.com/"
header = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"
}
# 添加headers最基本的反爬蟲措施
reQ = request.Request(url,headers=header)
# 獲取網頁內容
page = request.urlopen(reQ)
html = page.read()
html = html.decode("utf-8")
print(html)
User-Agent 的值我們可以在瀏覽器獲取