往期內容提要：

一、urllib 模塊

所謂網頁抓取，就是把URL地址中指定的網絡資源從網絡流中讀取出來，保存到本地。在Python中有很多庫可以用來抓取網頁，其中最常見的就是Python中內置的HTTP請求庫——urllib模塊。

在 python2 中，urllib 被分爲urllib,urllib2等

urllib模塊是Python內置的HTTP請求庫，它不需要我們額外安裝，可以直接引入urllib模塊進行使用。urllib模塊主要包含四大塊內容：

request，它是urllib模塊中最核心的部分，是最基本的HTTP請求模塊。request可以模擬發送請求，就像我們在瀏覽器裏輸入網址然後敲擊回車一樣。
error，它是urllib的異常處理模塊，當模擬的請求發生錯誤時，比如網絡連接失敗、禁止訪問等，我們就可以使用error模塊來捕獲這些異常，然後進行重試或其他操作來保證程序不會意外終止。
parse，它是urllib的一個工具模塊，提供了許多對URL的處理方法，比如拆分、解析、合併等。
robotparser，它的功能主要用於識別網站下的robots.txt文件，通過robots.txt文件可以幫助我們判斷當前網站是否可以爬，從而遠離不必要的法律糾紛。

二、Requests：發送網絡請求，返回響應數據

雖然Python的標準庫中 urllib 模塊已經包含了平常我們使用的大多數功能，但是它的 API 使用起來讓人感覺不太好，而 Requests 自稱 "HTTP for Humans"，說明使用更簡潔方便。

Requests 唯一的一個非轉基因的 Python HTTP 庫，人類可以安全享用；requests在python2 和python3中通用，方法完全一樣；能夠自動幫助我們解壓(gzip壓縮的等)網頁內容。

Requests 繼承了urllib的所有特性。Requests支持HTTP連接保持和連接池，支持使用cookie保持會話，支持文件上傳，支持自動確定響應內容的編碼，支持國際化的 URL 和 POST 數據自動編碼。

requests 的底層實現其實就是 urllib

Requests的文檔非常完備，中文文檔也相當不錯。Requests能完全滿足當前網絡的需求，支持Python 2.6--3.5，而且能在PyPy下完美運行。

開源地址：https://github.com/kennethreitz/requests

中文文檔 API： http://docs.python-requests.org/zh_CN/latest/index.html

（1）安裝方式：

利用 pip 安裝或者利用 easy_install 都可以完成安裝：

$ pip install requests

$ easy_install requests

（2）response的常用方法：

response.text

respones.content

response.status_code

response.request.headers

response.headers

response.text
類型：str
解碼類型：根據HTTP 頭部對響應的編碼作出有根據的推測，推測的文本編碼
如何修改編碼方式：response.encoding=”gbk”
response.content
類型：bytes
解碼類型：沒有指定
如何修改編碼方式：response.content.deocde(“utf8”)

更推薦使用response.content.deocde()的方式獲取響應的html頁面。

（1）基本GET請求（headers參數和 parmas參數）

GET請求一般用於我們向服務器獲取數據，以 http://www.baidu.com/s? 爲例，我們可以看到在請求部分之後出現一個長長的字符串，其中就包含我們要查詢的關鍵詞，於是我們可以嘗試用默認的Get方式來發送請求。

1. 最基本的GET請求可以直接用get方法

response = requests.get("http://www.baidu.com/")

# 也可以這麼寫
# response = requests.request("get", "http://www.baidu.com/")

2. 添加 headers 和查詢參數

如果想添加 headers，可以傳入headers參數來增加請求頭中的headers信息。如果要將參數放在url中傳遞，可以利用 params 參數。

import requests

kw = {'wd':'長城'}

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

# params 接收一個字典或者字符串的查詢參數，字典類型自動轉換爲url編碼，不需要urlencode()
response = requests.get("http://www.baidu.com/s?", params = kw, headers = headers)

# 查看響應內容，response.text 返回的是Unicode格式的數據
print (response.text)

# 查看響應內容，response.content返回的字節流數據
print (respones.content)

# 查看完整url地址
print (response.url)

# 查看響應頭部字符編碼
print (response.encoding)

# 查看響應碼
print (response.status_code)

運行結果

......

......

'http://www.baidu.com/s?wd=%E9%95%BF%E5%9F%8E'

'utf-8'

200

使用response.text 時，Requests 會基於 HTTP 響應的文本編碼自動解碼響應內容，大多數 Unicode 字符集都能被無縫地解碼。

使用response.content 時，返回的是服務器響應數據的原始二進制字節流，可以用來保存圖片等二進制文件。

1.1 GET請求之實戰1：通過requests獲取新浪首頁爲例

#coding=utf-8
import  requests
response = requests.get("http://www.sina.com")
print(response.request.headers)
print(response.content.decode())

結果

{'User-Agent': 'python-requests/2.12.4', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
<!DOCTYPE html>
<!-- [ published at 2017-06-09 15:15:23 ] -->
<html>
<head>
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta http-equiv="X-UA-Compatible" content="IE=edge" />
    <title>新浪首頁</title>
    <meta name="keywords" content="新浪,新浪網,SINA,sina,sina.com.cn,新浪首頁,門戶,資訊" />
  ...

#coding=utf-8
import  requests
response = requests.get("http://www.sina.com")
print(response.request.headers)
print(response.text)

結果

{'User-Agent': 'python-requests/2.12.4', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
<!DOCTYPE html>
<!-- [ published at 2017-06-09 15:18:10 ] -->
<html>
<head>
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta http-equiv="X-UA-Compatible" content="IE=edge" />
    <title>æ–°æµªé¦–é¡µ</title>
    <meta name="keywords" content="æ–°æµª,æ–°æµªç½‘,SINA,sina,sina.com.cn,æ–°æµªé¦–é¡µ,é—¨æˆ·,èµ„è®¯" />
    <meta name="description" content="æ–°æµªç½‘ä¸ºå…¨çƒç”¨æˆ·24å°æ—¶æä¾›å…¨é¢åŠæ—¶çš„ä¸æ–‡èµ„è®¯ï¼Œå†…å®¹è¦†ç›–å›½å†…å¤–çªå‘æ–°é—»äº‹ä»¶ã€ä½“å›èµ›äº‹ã€å¨±ä¹æ—¶å°šã€äº§ä¸šèµ„è®¯ã€å®žç”¨ä¿¡æ¯ç‰ï¼Œè®¾æœ‰æ–°é—»ã€ä½“è‚²ã€å¨±ä¹ã€è´¢ç»ã€ç§‘æŠ€ã€æˆ¿äº§ã€æ±½è½¦ç‰30å¤šä¸ªå†…å®¹é¢‘é“ï¼ŒåŒæ—¶å¼€è®¾åšå®¢ã€è§†é¢‘ã€è®ºå›ç‰è‡ªç”±äº’åŠ¨äº¤æµç©ºé—´ã€‚" />
    <link rel="mask-icon" sizes="any" href="//www.sina.com.cn/favicon.svg" color="red">

產生問題的原因分析

requests默認自帶的Accept-Encoding導致或者新浪默認發送的就是壓縮之後的網頁；
但是爲什麼content.read()沒有問題，因爲requests，自帶解壓壓縮網頁的功能；
當收到一個響應時，Requests 會猜測響應的編碼方式，用於在你調用response.text 方法時對響應進行解碼。Requests 首先在 HTTP 頭部檢測是否存在指定的編碼方式，如果不存在，則會使用 chardet.detect來嘗試猜測編碼方式（存在誤差）；
更推薦使用 response.content.deocde()

1.2 GET請求之實戰2：通過requests獲取網絡上圖片的大小

from io import BytesIO,StringIO
import requests
from PIL import Image
img_url = "http://imglf1.ph.126.net/pWRxzh6FRrG2qVL3JBvrDg==/6630172763234505196.png"
response = requests.get(img_url)
f = BytesIO(response.content)
img = Image.open(f)
print(img.size)

輸出結果：

(500, 262)

理解一下 BytesIO 和StringIO

很多時候，數據讀寫不一定是文件，也可以在內存中讀寫。
StringIO顧名思義就是在內存中讀寫str。
BytesIO 就是在內存中讀寫bytes類型的二進制數據

例子中如果使用StringIO 即f = StringIO(response.text)會產生“cannot identify image file”的錯誤

當然上述例子也可以把圖片存到本地之後再使用Image打開來獲取圖片大小

（2）基本post請求（data參數）

1. 最基本post方法

response = requests.post("http://www.baidu.com/", data = data)

2. 傳入data數據

對於 POST 請求來說，我們一般需要爲它增加一些參數。那麼最基本的傳參方法可以利用 data 這個參數。data是一個字典，裏面要匹配鍵值對。

import requests

formdata = {
    "type":"AUTO",
    "i":"i love python",
    "doctype":"json",
    "xmlVersion":"1.8",
    "keyfrom":"fanyi.web",
    "ue":"UTF-8",
    "action":"FY_BY_ENTER",
    "typoResult":"true"
}

url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=null"

headers={ "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"}

response = requests.post(url, data = formdata, headers = headers)

print (response.text)

# 如果是json文件可以直接顯示
print (response.json())

運行結果

{"type":"EN2ZH_CN","errorCode":0,"elapsedTime":3,"translateResult":[[{"src":"i love python","tgt":"我喜歡python"}]],"smartResult":{"type":1,"entries":["","肆文","","","高德納","",""]}}

{'type': 'EN2ZH_CN', 'errorCode': 0, 'elapsedTime': 3, 'translateResult': [[{'src': 'i love python', 'tgt': '我喜歡python'}]], 'smartResult': {'type': 1, 'entries': ['', '肆文', '', '', '高德納', '', '']}}

（3）代理（proxies參數）

爲什麼爬蟲需要使用代理？

讓服務器以爲不是同一個客戶端在請求

防止我們的真實地址被泄露，防止被追究

如果需要使用代理，你可以通過爲任意請求方法提供 proxies 參數來配置單個請求：

import requests

# 根據協議類型，選擇不同的代理
proxies = {
  "http": "http://12.34.56.79:9527",
  "https": "http://12.34.56.79:9527",
}

response = requests.get("http://www.baidu.com", proxies = proxies)
print response.text

也可以通過本地環境變量 HTTP_PROXY 和 HTTPS_PROXY 來配置代理：

export HTTP_PROXY="http://12.34.56.79:9527"
export HTTPS_PROXY="https://12.34.56.79:9527"

（4）私密代理驗證（特定格式）和 Web客戶端驗證（auth 參數）

1. 私密代理

import requests

# 如果代理需要使用HTTP Basic Auth，可以使用下面這種格式：
proxy = { "http": "mr_mao_hacker:[email protected]:16816" }

response = requests.get("http://www.baidu.com", proxies = proxy)

print (response.text)

2.web客戶端驗證

如果是Web客戶端驗證，需要添加 auth = (賬戶名, 密碼)

import requests

auth=('test', '123456')

response = requests.get('http://192.168.199.107', auth = auth)

print (response.text)

（5） Cookies 和 Sission

兩者區別：

cookie數據存放在客戶的瀏覽器上，session數據放在服務器上。

cookie不是很安全，別人可以分析存放在本地的cookie並進行cookie欺騙。

session會在一定時間內保存在服務器上。當訪問增多，會比較佔用你服務器的性能。

單個cookie保存的數據不能超過4K，很多瀏覽器都限制一個站點最多保存20個cookie。

帶上cookie、session的好處：能夠請求到登錄之後的頁面

帶上cookie、session的弊端：一套cookie和session往往和一個用戶對應，請求太快，請求次數太多，容易被服務器識別爲爬蟲

因此，不需要cookie的時候儘量不去使用cookie。但是爲了獲取登錄之後的頁面，我們必須發送帶有cookies的請求

1. Cookies

如果一個響應中包含了cookie，那麼我們可以利用 cookies參數拿到：

import requests

response = requests.get("http://www.baidu.com/")

# 7\. 返回CookieJar對象:
cookiejar = response.cookies

# 8\. 將CookieJar轉爲字典：
cookiedict = requests.utils.dict_from_cookiejar(cookiejar)

print (cookiejar)

print (cookiedict)

運行結果：

<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>

{'BDORZ': '27315'}

2. session

在 requests 裏，session對象是一個非常常用的對象，這個對象代表一次用戶會話：從客戶端瀏覽器連接服務器開始，到客戶端瀏覽器與服務器斷開。

會話能讓我們在跨請求時候保持某些參數，比如在同一個 Session 實例發出的所有請求之間保持 cookie 。

（6）處理HTTPS請求 SSL證書驗證

Requests也可以爲HTTPS請求驗證SSL證書：

要想檢查某個主機的SSL證書，你可以使用 verify 參數（也可以不寫）

import requests
response = requests.get("https://www.baidu.com/", verify=True)

# 也可以省略不寫
# response = requests.get("https://www.baidu.com/")
print (r.text)

運行結果：

<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type
content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible
content=IE=Edge>百度一下，你就知道 ....

如果SSL證書驗證不通過，或者不信任服務器的安全證書，則會報出SSLError，據說 12306 證書是自己做的：

來測試一下：

import requests
response = requests.get("https://www.12306.cn/mormhweb/")
print (response.text)

結果：

SSLError: ("bad handshake: Error([('SSL routines', 'ssl3_get_server_certificate', 'certificate verify failed')],)",)

如果我們想跳過 12306 的證書驗證，把 verify 設置爲 False 就可以正常請求了。

r = requests.get("https://www.12306.cn/mormhweb/", verify = False)

後期內容提要：

[Python爬蟲] 四、數據抓取之HTTP/HTTPS抓包工具Fiddler
[Python爬蟲] 五、數據提取之正則表達式re模塊
[Python爬蟲] 六、數據提取之XPath與lxml類庫
[Python爬蟲] 七、結構化數據提取之JSON與JsonPATH
[Python爬蟲] 八、動態HTML處理之Selenium與PhantomJS
[Python爬蟲] 九、機器視覺與機器圖像識別之Tesseract
[Python爬蟲] 十、Scrapy 框架

如果您有任何疑問或者好的建議，期待你的留言與評論！

[Python爬蟲] 三、數據抓取之Requests HTTP 庫

一、urllib 模塊

二、Requests：發送網絡請求，返回響應數據

requests 的底層實現其實就是 urllib

（1）安裝方式：

（2）response的常用方法：

（1）基本GET請求（headers參數和 parmas參數）

1. 最基本的GET請求可以直接用get方法

2. 添加 headers 和查詢參數

1.1 GET請求之實戰1：通過requests獲取新浪首頁爲例

產生問題的原因分析

1.2 GET請求之實戰2：通過requests獲取網絡上圖片的大小

（2）基本post請求（data參數）

1. 最基本post方法

2. 傳入data數據

（3）代理（proxies參數）

（4）私密代理驗證（特定格式）和 Web客戶端驗證（auth 參數）

1. 私密代理

2.web客戶端驗證

（5） Cookies 和 Sission

1. Cookies

2. session

（6）處理HTTPS請求 SSL證書驗證

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

2020年上半年數據庫系統工程師考試

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

密碼學：一文讀懂常用加密技術原理及其邏輯與應用方法

【樹莓派-網絡監控（5）前端搭建】基於iframe標籤,集成監控實時畫面與遙控功能，完成網絡監控的搭建與調試

【樹莓派-網絡監控（4）數據交互】基於python異步io框架Tornado,實現監控遙控命令與Web網頁觸發事件的綁定及前後端的數據交互

【抽獎平臺開發（3）】將抽獎結果提交的表單上傳至數據庫，完成抽獎平臺前臺開發（PHP+MySQL）

【抽獎平臺開發（1）】抽獎功能的前端實現（HTML+JS+CSS）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

[Python爬蟲] 三、數據抓取之Requests HTTP 庫

一、urllib 模塊

二、Requests：發送網絡請求，返回響應數據

requests 的底層實現其實就是 urllib

（1）安裝方式：

（2）response的常用方法：

（1） 基本GET請求（headers參數 和 parmas參數）

1. 最基本的GET請求可以直接用get方法

2. 添加 headers 和 查詢參數

1.1 GET請求之實戰1：通過requests獲取新浪首頁爲例

產生問題的原因分析

1.2 GET請求之實戰2：通過requests獲取網絡上圖片的大小

（2） 基本post請求（data參數）

1. 最基本post方法

2. 傳入data數據

（3） 代理（proxies參數）

（4） 私密代理驗證（特定格式） 和 Web客戶端驗證（auth 參數）

1. 私密代理

2.web客戶端驗證

（5） Cookies 和 Sission

1. Cookies

2. session

（6）處理HTTPS請求 SSL證書驗證

（1）基本GET請求（headers參數和 parmas參數）

2. 添加 headers 和查詢參數

（2）基本post請求（data參數）

（3）代理（proxies參數）

（4）私密代理驗證（特定格式）和 Web客戶端驗證（auth 參數）