Python爬蟲1.3 — requests基礎用法教程
綜述
本系列文檔用於對Python爬蟲技術的學習進行簡單的教程講解,鞏固自己技術知識的同時,萬一一不小心又正好對你有用那就更好了。
Python 版本是3.7.4
前面我們記述了urllib庫的一些用法,下面我們來學習另一個庫(第三方庫)的用法。
requests庫介紹
雖然Python的標準庫中urllib模塊已經包含了平常我們使用的大多數功能,但是它的API使用起來讓人感覺不太友好,而requests庫宣傳是“HTTP for Human”,說明使用更簡潔方便。由於requests庫不是標準庫,所以我們首先需要安裝這個requests庫。
requests的安裝和文檔地址
利用 pip 命令可以非常方便您的安裝:
pip install requests
中文文檔:https://2.python-requests.org//zh_CN/latest/index.html
發送get請求
發送GET請求,直接調用requests.get()
就可以了,想要發送什麼類型的請求,就調用什麼方法。
代碼示例:
# 引入requests庫
import requests
# 向指定的url發送請求,並返回
url = 'https://www.baidu.com/'
# 發送get請求
req = requests.get(url=url)
# 響應內容
print('狀態碼:', req.status_code)
print('請求地址:', req.url)
print('當前編碼:', req.encoding)
# req.encoding = 'utf-8' # 設置編碼
# 以encoding解析返回內容。字符串方式的響應體,會自動根據響應頭部的字符編碼進行解碼
print('內容1:', req.text)
# 以字節形式(二進制)返回。字節方式的響應體,會自動爲你解碼 gzip 和deflate 壓縮。
print('內容2:', req.content)
# print('內容2:', req.content.decode())
# 以字典對象存儲服務器響應頭,但是這個字典比較特殊,字典鍵不區分大小寫,若鍵不存在則返回None
print('headers:', req.headers)
# 返回原始響應體,也就是 urllib 的 response 對象,使用 使用 r.raw.read()
print('原始響應體:', req.raw)
# print(req.raw.read())
發送post請求
發送POST請求也是非常簡單,直接調用requests.post()
就可以了;如果返回的是json數據,那麼可以使用response.json()
來將json字符串轉換爲字典或者列表。
代碼示例:
# 引入requests庫
import requests
# 聲明定義請求頭
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',
}
# 請求地址
post_url = 'https://fanyi.baidu.com/sug'
# 參數
form_data = {
'kw': 'honey'
}
# 進行post請求
req = requests.post(url=post_url, data=form_data, headers=headers)
# 響應內容
print('狀態碼:', req.status_code)
print('請求地址:', req.url)
print('當前編碼:', req.encoding)
# req.encoding = 'utf-8' # 設置編碼
# 以encoding解析返回內容。字符串方式的響應體,會自動根據響應頭部的字符編碼進行解碼
print('內容1:', req.text)
# 以字節形式(二進制)返回。字節方式的響應體,會自動爲你解碼 gzip 和deflate 壓縮。
print('內容2:', req.content)
# print('內容2:', req.content.decode())
# 以字典對象存儲服務器響應頭,但是這個字典比較特殊,字典鍵不區分大小寫,若鍵不存在則返回None
print('headers:', req.headers)
# 返回原始響應體,也就是 urllib 的 response 對象,使用 使用 r.raw.read()
print('原始響應體:', req.raw)
# print(req.raw.read())
# 返回json對象
print('json:', req.json())
requests異常處理
我們在實際使用過程中,可能會遇到網絡的各種變化會導致請求過程發生各種未知的錯誤導致程序中斷,這就使我們的程序不能很好的去處理錯誤。所以爲了使我們的程序在請求時遇到錯誤,可以捕獲這種錯誤,就要用到try…except
方法,以及瞭解requests可能發生的各種錯誤。
import requests
url = 'http://www.b.com'
try:
req = requests.get(url=url)
print(req.text)
except requests.exceptions.ConnectionError as e:
print(e)
except requests.exceptions.ChunkedEncodingError as e:
print(e)
except requests.exceptions.HTTPError as e:
print(e)
response的一些屬性
上面的代碼例子中已經有說明,在此再列舉一遍。
# 響應內容
print('狀態碼:', req.status_code)
print('請求地址:', req.url)
print('當前編碼:', req.encoding)
# req.encoding = 'utf-8' # 設置編碼
# 以encoding解析返回內容。字符串方式的響應體,會自動根據響應頭部的字符編碼進行解碼
print('內容1:', req.text)
# 以字節形式(二進制)返回。字節方式的響應體,會自動爲你解碼 gzip 和deflate 壓縮。
print('內容2:', req.content)
# print('內容2:', req.content.decode())
# 以字典對象存儲服務器響應頭,但是這個字典比較特殊,字典鍵不區分大小寫,若鍵不存在則返回None
print('headers:', req.headers)
# 返回原始響應體,也就是 urllib 的 response 對象,使用 使用 r.raw.read()
print('原始響應體:', req.raw)
# print(req.raw.read())
# 獲取返回的json數據
print('json:', req.json())
response.text和response.content的區別
response.content
:這個是直接從網絡上面抓取的數據,沒有經過任何解碼,所以是一個butes類型,其實在硬盤上和網絡上傳輸的字符串都是bytes類型。response.text
:這個是string的數據類型,是requests庫將response.content進行解碼的字符串,解碼需要指定一個編碼方式,requests回根據自己的請求來判斷解碼方式,所以有時候可能會由於解碼方式不同產生亂碼,這時候就應該使用response.content.decode('utf-8')
繼續手動解碼。