Python爬蟲之requests使用指南

一、requests簡介及安裝

1. 簡介

Requests庫是由python語言基於urllib編寫的,採用的是Apache2 Licensed開源協議的HTTP庫,它在做網絡請求上會比urllib使用更加方便。

2. 安裝

直接使用pip安裝即可

pip install requests

二、requests使用方法介紹

1. 請求方式

requests包含多種請求方式:

  1. GET- 請求頁面,並返回頁面內容
  2. POST- 大多用於提交表單或上傳文件,數據包含在請求體中
  3. HEAD- 類似於GET請求,只不過返回的響應中沒有具體的內容,用於獲取報頭
  4. PUT- 從客戶端向服務器傳送的數據取代指定文檔中的內容
  5. DELETE- 請求服務器刪除指定的頁面
  6. CONNECT- 把服務器當作跳板,讓服務器代替客戶端訪問其他網頁
  7. OPTIONS- 允許客戶端查看服務器的性能
  8. TRACE- 回顯服務器收到的請求,主要用於測試或診斷

2. 基本用法

這裏只介紹常用的GET請求和POST請求

2.1 GET請求

GET請求中的參數包含在URL裏面,並且數據是明文的,可以在URL中看到。
GET請求提交的數據最多隻有1024字節。

以實驗網址爲例(http://httpbin.org/get
基本請求:

import requests

r = requests.get(url='http://httpbin.org/get')  # 使用GET請求訪問
print(r.text)  # 打印網頁的HTML文本

打印結果:

{
  "args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.22.0"
  }, 
  "origin": "12.192.229.251, 12.192.229.251", 
  "url": "https://httpbin.org/get"
}

可以發現,我們成功的發起了GET請求,返回結果中包含請求頭URLIP等信息。
那麼,對於GET請求,如果要附加額外的信息,要怎麼添加呢?
使用params參數構造帶請求參數的GET請求:

import requests

# 請求參數
params = {
    'name': 'Evan',
    'age': '24'
}
r = requests.get(url='http://httpbin.org/get', params=params)  # 帶請求參數的GET請求
print(r.text)

打印結果:

{
  "args": {
    "age": "24", 
    "name": "Evan"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.22.0"
  }, 
  "origin": "12.192.229.251, 12.192.229.251", 
  "url": "https://httpbin.org/get?name=Evan&age=24"
}

可以看到設置的params參數已經起作用了,不過還有一種方法也可以提供請求參數,就是構建完整的URL,因爲GET請求的參數會包含在URL裏面。
使用 urlencode模塊 將字典序列化爲GET請求參數:

import requests
from urllib.parse import urlencode

# 請求參數
params = {
    'name': 'Evan',
    'age': '24'
}
r = requests.get(url='http://httpbin.org/get?' + urlencode(params))
print(r.text)

打印結果:

{
  "args": {
    "age": "24", 
    "name": "Evan"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.22.0"
  }, 
  "origin": "12.192.229.251, 12.192.229.251", 
  "url": "https://httpbin.org/get?name=Evan&age=24"
}

可以看到結果和使用params參數的GET請求是一樣的。

2.2 POST請求

POST請求大多在表單提交時發起。比如一個登陸表單,輸入用戶名和密碼後,點擊“登陸”按鈕,這通常會發起一個POST請求,其數據通常以表單的形式傳輸,表單數據會放在請求體中,而不會體現在URL中,所以提交的數據是保密的,不會泄露敏感信息,並且 POST請求提交的數據大小沒有限制。

以實驗網址爲例(http://httpbin.org/post
基本請求:

import requests

# 請求參數
data = {
    'name': 'Evan',
    'age': '24'
}
r = requests.post(url='http://httpbin.org/post', data=data)  # 使用POST請求訪問
print(r.text)

打印結果:

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "age": "24", 
    "name": "Evan"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "16", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.22.0"
  }, 
  "json": null, 
  "origin": "12.192.229.251, 12.192.229.251", 
  "url": "https://httpbin.org/post"
}

可以發現,其中form部分就是我們提交的數據,這就證明POST請求成功發送了。
requests還可以模擬提交一些數據,比如上傳文件,要怎麼添加呢?
使用files參數構造帶上傳文件的POST請求:

import requests

files = {'file': open('haimianbaobao.ico', 'rb')}  # 文件路徑
r = requests.post(url='http://httpbin.org/post', files=files)  # 帶上傳文件的POST請求
print(r.text)

打印結果:

{
  "args": {}, 
  "data": "", 
  "files": {
    "file": "data:application/octet-stream;base64,R0lGODlhkQCCAHAAACH5BABBAAAALAAAAA...="
  }, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "8732", 
    "Content-Type": "multipart/form-data; boundary=c15f3180298f305a48359831993ed6b8", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.22.0"
  }, 
  "json": null, 
  "origin": "12.192.229.251, 12.192.229.251", 
  "url": "https://httpbin.org/post"
}

以上省略部分內容,可以發現,裏面包含files這個字段,而form字段是空的,這證明文件上傳部分會單獨有一個files字段來標識。

3. 高級用法

現在大部分網站都有反爬機制,所以在請求網頁的時候一般都要添加請求頭纔可以得到響應,某些網站限制登陸時還要設置cookies等,下面介紹一些常用的高級用法。(POST請求和GET請求同理,這裏以GET請求爲例

3.1 添加請求頭

請求頭,用來說明服務器要使用的附加信息,比較重要的信息有Cookie、Referer、User-Agent等

下面簡要說明一些常用的請求頭信息:

  • Accept- 請求報頭域,用於指定客戶端可接受哪些類型的信息。
  • Accept-Language- 指定客戶端可接受的語言類型
  • Accept-Encoding- 指定客戶端可接受的內容編碼
  • Host- 用於指定請求資源的主機IP和端口號,其內容爲請求URL的原始服務器或網關的位置
  • Cookie- 也常用複數形式Cookies,它的主要功能是維持當前訪問會話,服務器會用會話保存登陸狀態信息
  • Referer- 此內容用來標識這個請求是從哪個頁面發過來的,服務器可以拿這一信息做相應的處理,如做來源統計,放盜鏈處理等
  • User-Agent- 簡稱UA,它是一個特殊的字符串頭,可以使服務器識別客戶使用的操作系統及版本、瀏覽器及版本等信息。在做爬蟲時加上此信息,可以僞裝爲瀏覽器,如果不加,很可能會被識別出爲爬蟲
  • Content-Type- 也叫互聯網媒體類型(Internet Media Type)或者MIME類型,它用來表示具體請求中的媒體類型信息。例如,text/html代表HTML格式,image/gif代表GIF圖片,application/json代表JSON類型等

看到這相信你已經瞭解請求頭中大部分參數的含義了,現在開始用程序實現這些功能
使用headers參數添加”User-Agent“:

import requests

# 請求頭參數
headers = {
    "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/78.0.3904.108 Safari/537.36'
}
r = requests.get(url='http://httpbin.org/get', headers=headers)  # 帶請求頭的GET請求
print(r.text)

打印結果:

{
  "args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"
  }, 
  "origin": "12.192.229.251, 12.192.229.251", 
  "url": "https://httpbin.org/get"
}

可以看到,“User-Agent”已經被添加上去了,所以添加請求頭很簡單,只要添加headers參數即可,headers是一個字典類型,根據需求填入相應的請求頭信息就可以輕鬆的提交各種請求方式了。

3.2 會話維持

說到會話維持,第一想到的就是使用cookies,網頁爲什麼能保持會話,在登陸後不用重新登陸,就是因爲cookies保持會話了,所以我們想要會話維持就要在請求頭中添加對應的cookies,但是問題來了,如果每次在請求的時候都去添加cookies,這未免也太麻煩了吧,所以requests有一個新的利器-Session對象,利用它,我們可以方便地維護一個會話,而且不用擔心cookies的問題,它會幫我們自動處理好。
示例如下:
沒有使用Session之前:

import requests

# 第一次訪問,並設置cookies
r1 = requests.get(url='http://httpbin.org/cookies/set/number/123456789')
print('r1: {}'.format(r1.text))
# 第二次訪問
r2 = requests.get(url='http://httpbin.org/cookies')
print('r2: {}'.format(r2.text))

打印結果:

r1: {
  "cookies": {
    "number": "123456789"
  }
}

r2: {
  "cookies": {}
}

這裏我們請求了一個測試網址(http://httpbin.org/cookies/set/number/123456789
請求這個網址時,可以設置一個cookie,名稱叫做number,內容是123456789,
隨後又請求了(http://httpbin.org/cookies),此網址可以獲取當前的Cookies,但是看打印結果cookies爲空,所以使用2次requests是相當於打開兩個瀏覽器,這兩次requests的內容是不共享的。
接下來看使用Session的例子:

import requests

# 實例化Session對象
s = requests.Session()

# 第一次訪問,並設置cookies
r1 = s.get(url='http://httpbin.org/cookies/set/number/123456789')
print('r1: {}'.format(r1.text))
# 第二次訪問
r2 = s.get(url='http://httpbin.org/cookies')
print('r2: {}'.format(r2.text))

打印結果:

r1: {
  "cookies": {
    "number": "123456789"
  }
}

r2: {
  "cookies": {
    "number": "123456789"
  }
}

成功獲取!所以需要登陸某些網站傳遞登陸信息時就使用Session對象來保持同一個會話,這樣就免去了每次要設置cookies的煩瑣了。

3.3 代理設置

對於某些網站,在測試的時候請求幾次能正常獲取內容,但是一旦開始大規模爬取,網站可能會彈出驗證碼,或者跳轉到登陸認證頁面,更甚至可能會直接封禁客戶端的IP,導致一定時間段內無法訪問,那麼,爲了防止這種情況發生,我們需要設置代理來解決這個問題。
使用proxies參數設置代理:

import requests

# 使用普通格式
proxies = {"http": "http://10.10.1.10:3128", "https": "http://10.10.1.10:1080"}
# 使用HTTP Basic Auth格式
proxies = {"http": "http://user:[email protected]:3128"}
# 使用SOCKS協議(需要安裝 'requests[socks]' 模塊)
proxies = {"http": "socks5://user:password@host:port", "https": "socks5://user:password@host:port"}

requests.get('http://httpbin.org/get', proxies=proxies)  # 使用代理的GET請求

當然,直接運行這個實例可能不行,因爲這些代理IP可能是無效的,這裏只講解proxies的使用格式和方法,具體大家可以去代理IP網站下載免費的代理或者付費的代理試驗。

3.4 超時設置

在本機網絡狀況不好或者服務器網絡響應太慢時,我們可能會等待很久的時間才能收到響應,這個時候就可以使用timeout參數,這個時間的計算是從發出請求到服務器響應的時間。
示例如下:

import requests

r = requests.get(url='http://httpbin.org/get', timeout=1)
print(r.text)

打印結果:

Traceback (most recent call last):
  File "C:/Evan/my_program/shining_star/trunk/unit_testing/test1.py", line 20, in <module>
    r = requests.get(url='http://httpbin.org/get', timeout=1)
  File "C:\pycharm_user\venv\lib\site-packages\requests\api.py", line 75, in get
    return request('get', url, params=params, **kwargs)
  File "C:\pycharm_user\venv\lib\site-packages\requests\api.py", line 60, in request
    return session.request(method=method, url=url, **kwargs)
  File "C:\pycharm_user\venv\lib\site-packages\requests\sessions.py", line 533, in request
    resp = self.send(prep, **send_kwargs)
  File "C:\pycharm_user\venv\lib\site-packages\requests\sessions.py", line 646, in send
    r = adapter.send(request, **kwargs)
  File "C:\pycharm_user\venv\lib\site-packages\requests\adapters.py", line 529, in send
    raise ReadTimeout(e, request=request)
requests.exceptions.ReadTimeout: HTTPConnectionPool(host='httpbin.org', port=80): Read timed out. (read timeout=1)

通過這樣的方式,我們可以將超時時間設置爲1秒,如果在1秒內沒有收到響應,那就拋出異常,還可以加上try-except進行異常處理,防止等待過長而浪費時間,我們還可以直接設置爲None,或者不設置直接留空,因爲默認也是None,這樣的話表示永久等待下去,直到收到服務器響應結果。

3.5 身份認證

在訪問某些網站時,我們可能會遇到如下圖所示,彈出一個輸入框提示身份驗證,此時可以使用auth參數添加用戶名和密碼進行認證。
身份驗證示例
示例如下:

import requests

r = requests.get('http://localhost:5000', auth=('username', 'password'))
print(r.text)

auth參數是一個元組,該元組第一個參數爲用戶名,第二個參數爲密碼,提供這個參數後requests會默認使用HTTPBasicAuth這個類來認證,這樣就可以解除認證,繼續訪問後續頁面了。

4. 響應

當我們使用requests請求網頁時,會返回一個response,我們就是要解析這個response,才能拿到我們想要的信息,所以接下來先介紹響應是由哪些信息組成的,然後再介紹怎麼用requests獲取這些信息。

4.1 響應的組成

響應是指服務器返回客戶端的結果,可以分爲三個部分:(響應狀態碼、響應頭、響應體)

4.1.1 響應狀態碼

響應狀態碼錶示服務器的響應狀態,如200代表服務器正常響應,404代表頁面未找到,500代表服務器內部發生錯誤。在爬蟲中,我們可以根據狀態碼來判斷服務器的響應狀態然後再進行下一步的處理。
下面列出一些常見的狀態碼供參考:

  • 200- 【成功】服務器已經成功處理了請求
  • 301- 【永久移動】請求的網頁已永久移動到新位置,即永久重定向
  • 302- 【臨時移動】請求的網頁暫時跳轉到其他頁面,即暫時重定向
  • 400- 【錯誤請求】服務器無法解析該請求
  • 401- 【未授權】請求沒有進行身份驗證或驗證未通過
  • 403- 【禁止訪問】服務器拒絕此請求
  • 404- 【未找到】服務器找不到請求的網頁
  • 408- 【請求超時】服務器請求超時
  • 410- 【已刪除】請求的資源已永久刪除
  • 500- 【服務器內部錯誤】服務器遇到錯誤,無法完成請求
  • 502- 【錯誤網關】服務器作爲網關或代理,從上游服務器收到無效響應
  • 503- 【服務不可用】服務器當前無法使用
  • 504- 【網關超時】服務器作爲網關或代理,但是沒有及時從上游服務器收到請求
  • 505- 【HTTP版本不支持】服務器不支持請求中所有的HTTP協議版本

4.1.2 響應頭

響應頭包含了服務器對請求的應答信息,如Content-TypeServerSet-Cookie等。
下面簡要說明一些常用的響應頭信息:

  • Date- 標識響應產生的時間
  • Last-Modified- 指定資源的最後修改時間
  • Content-Encoding- 指定響應內容的編碼
  • Server- 包含服務器的信息,比如名稱、版本號等
  • Content-Type- 文檔類型,指定返回的數據類型是什麼,如text/html代表返回HTML文檔,application/x-javascript則代表返回JavaScript文件,image/jpeg則代表返回圖片
  • Set-Cookie- 設置Cookies,響應頭中的Set-Cookie告訴瀏覽器需要將此內容放在Cookies中,下次請求攜帶Cookies請求
  • Expires- 指定響應的過期時間,可以使代理服務器或瀏覽器將加載的內容更新到緩存中,如果再次訪問時,就可以直接從換從中加載,降低服務器負載,縮短加載時間

4.1.3 響應體

響應體是最重要的內容,響應的正文數據都是在響應體中,比如請求網頁時,它的響應體就是網頁的HTML代碼,請求一張圖片時,它的響應體就是圖片的二進制數據,在做爬蟲時,我們主要通過響應體得到網頁的源代碼,JSON數據等,然後從中做相應內容的提取。

當然,在我們不使用爬蟲時也可以直接看到響應體(也就是網頁源代碼),所以在開始寫爬蟲前應先看一遍網頁源代碼,瞭解自己要抓取哪些信息,這些信息放在哪個位置等等。

下面介紹一些查看網頁源代碼的方法:

  1. 打開瀏覽器開發者工具(按F12),然後在瀏覽器開發者工具中點擊Elements,就可以看到網頁的源代碼了,也就是響應體的內容,它是解析的目標
  2. 在網頁上按鼠標右鍵,然後點擊查看網頁源代碼,這個時候會彈出一個新的窗口,裏面的內容就是當前頁面的源代碼了

4.2 響應的獲取

在發送請求後,得到的自然就是響應了,上面我們已經介紹了響應是由哪些信息組成的,現在介紹怎麼用requests去獲取這些信息。
示例如下:

# -*- coding:utf-8 -*-
import requests

r = requests.get(url='http://httpbin.org/get')  # 使用GET請求訪問

# 獲取網頁信息
print('請求的URL: {}'.format(r.url))  # 獲取當前URL,返回一個字符串
print('響應狀態碼: {}'.format(r.status_code))  # 獲取響應狀態碼,返回一個整形
print('響應頭部信息: {}'.format(r.headers))  # 獲取響應頭部信息,返回一個字典
print('響應Cookies: {}'.format(r.cookies))  # 獲取響應Cookies,返回一個字典
print('訪問的歷史記錄: {}'.format(r.history))  # 獲取訪問的歷史記錄,可以查看是否重定向,返回一個列表
print('網頁源代碼: {}'.format(r.text))  # 獲取網頁源代碼,返回一個字符串
print('網頁二進制數據: {}'.format(r.content))  # 獲取網頁內容的二進制格式,返回一個二進制數據
print('JSON數據: {}'.format(r.json))  # 如果響應信息是JSON數據則調用此方法,返回一個字典

打印結果:

請求的URL: http://httpbin.org/get
響應狀態碼: 200
響應頭部信息: {'Access-Control-Allow-Credentials': 'true', 'Access-Control-Allow-Origin': '*', 'Content-Encoding': 'gzip', 'Content-Type': 'application/json', 'Date': 'Sat, 21 Dec 2019 13:50:15 GMT', 'Referrer-Policy': 'no-referrer-when-downgrade', 'Server': 'nginx', 'X-Content-Type-Options': 'nosniff', 'X-Frame-Options': 'DENY', 'X-XSS-Protection': '1; mode=block', 'Content-Length': '181', 'Connection': 'keep-alive'}
響應Cookies: <RequestsCookieJar[]>
訪問的歷史記錄: []
網頁源代碼: {
  "args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.21.0"
  }, 
  "origin": "119.123.1.99, 119.123.1.99", 
  "url": "https://httpbin.org/get"
}

網頁二進制數據: b'{\n  "args": {}, \n  "headers": {\n    "Accept": "*/*", \n    "Accept-Encoding": "gzip, deflate", \n    "Host": "httpbin.org", \n    "User-Agent": "python-requests/2.21.0"\n  }, \n  "origin": "119.123.1.99, 119.123.1.99", \n  "url": "https://httpbin.org/get"\n}\n'
JSON數據: <bound method Response.json of <Response [200]>>
發佈了27 篇原創文章 · 獲贊 16 · 訪問量 2861
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章