urllib2

urlopen(url, data, timeout)

第一個參數url即爲URL，第二個參數data是訪問URL時要傳送的數據，第三個timeout是設置超時時間。
第二三個參數是可以不傳送的，data默認爲空None，timeout默認爲 socket._GLOBAL_DEFAULT_TIMEOUT
第一個參數URL是必須要傳送的，在這個例子裏面我們傳送了百度的URL，執行urlopen方法之後，返回一個response對象，返回信息便保存在這裏面。

request = urllib2.Request("http://www.baidu.com")
response = urllib2.urlopen(request)

構造Requset:運行結果是完全一樣的，只不過中間多了一個request對象，推薦大家這麼寫，因爲在構建請求時還需要加入好多內容，通過構建一個request，服務器響應請求得到應答，這樣顯得邏輯上清晰明確。

urllib2.Request(url, data, headers)

POST&GET

數據傳送分爲POST和GET兩種方式，兩種方式有什麼區別呢？

最重要的區別是GET方式是直接以鏈接形式訪問，鏈接中包含了所有的參數，當然如果包含了密碼的話是一種不安全的選擇，不過你可以直觀地看到自己提交了什麼內容。POST則不會在網址上顯示所有的參數，不過如果你想直接查看提交了什麼就不太方便了，大家可以酌情選擇

POST

import urllib
import urllib2

values = {"username":"[email protected]","password":"XXXX"}
data = urllib.urlencode(values)
url = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()

GET

import urllib
import urllib2

values={}
values['username'] = "1016903103@qq.com"
values['password']="XXXX"
data = urllib.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request = urllib2.Request(geturl)
response = urllib2.urlopen(request)
print response.read()

設置Headers(僞裝瀏覽器)

有些網站不會同意程序直接用上面的方式進行訪問，如果識別有問題，那麼站點根本不會響應，所以爲了完全模擬瀏覽器的工作，我們需要設置一些Headers 的屬性。
設置了一個headers，在構建request時傳入，在請求時，就加入了headers傳送，服務器若識別了是瀏覽器發來的請求，就會得到響應

url = 'http://www.server.com/login'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
values = {'username' : 'cqc',  'password' : 'XXXX' }
headers = { 'User-Agent' : user_agent }
data = urllib.urlencode(values)
request = urllib2.Request(url, data, headers)
response = urllib2.urlopen(request)
page = response.read()

對付”反盜鏈””防盜鏈”

另外，我們還有對付”反盜鏈”的方式，對付防盜鏈，服務器會識別headers中的referer是不是它自己，如果不是，有的服務器不會響應，所以我們還可以在headers中加入referer

headers = { ‘User-Agent’ : ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)’ ,
‘Referer’:’http://www.zhihu.com/articles’ }

另外headers的一些屬性，下面的需要特別注意一下：

User-Agent : 有些服務器或 Proxy 會通過該值來判斷是否是瀏覽器發出的請求
Content-Type : 在使用 REST 接口時，服務器會檢查該值，用來確定 HTTP Body 中的內容該怎樣解析。
application/xml ：在 XML RPC，如 RESTful/SOAP 調用時使用
application/json ：在 JSON RPC 調用時使用
application/x-www-form-urlencoded ：瀏覽器提交 Web 表單時使用
在使用服務器提供的 RESTful 或 SOAP 服務時， Content-Type 設置錯誤會導致服務器拒絕服務

其他的有必要的可以審查瀏覽器的headers內容，在構建時寫入同樣的數據即可。

Proxy（代理）的設置

urllib2 默認會使用環境變量 http_proxy 來設置 HTTP Proxy。假如一個網站它會檢測某一段時間某個IP 的訪問次數，如果訪問次數過多，它會禁止你的訪問。所以你可以設置一些代理服務器來幫助你做工作，每隔一段時間換一個代理，網站君都不知道是誰在搗鬼了，這酸爽！

下面一段代碼說明了代理的設置用法

import urllib2
enable_proxy = True
proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'})
null_proxy_handler = urllib2.ProxyHandler({})
if enable_proxy:
    opener = urllib2.build_opener(proxy_handler)
else:
    opener = urllib2.build_opener(null_proxy_handler)
urllib2.install_opener(opener)

異常

URLError異常

用try-except語句來包圍並捕獲相應的異常：

import urllib2

requset = urllib2.Request('http://www.xxxxx.com')
try:
    urllib2.urlopen(requset)
except urllib2.URLError, e:
    print e.reason

HTTPError異常

HTTPError是URLError的子類，在你利用urlopen方法發出一個請求時，服務器上都會對應一個應答對象response，其中它包含一個數字”狀態碼”。舉個例子，假如response是一個”重定向”，需定位到別的地址獲取文檔，urllib2將對此進行處理。
其他不能處理的，urlopen會產生一個HTTPError，對應相應的狀態嗎，HTTP狀態碼錶示HTTP協議所返回的響應的狀態。下面將狀態碼歸結如下：

100：繼續客戶端應當繼續發送請求。客戶端應當繼續發送請求的剩餘部分，或者如果請求已經完成，忽略這個響應。
101：轉換協議在發送完這個響應最後的空行後，服務器將會切換到在Upgrade 消息頭中定義的那些協議。只有在切換新的協議更有好處的時候才應該採取類似措施。
102：繼續處理由WebDAV（RFC 2518）擴展的狀態碼，代表處理將被繼續執行。
200：請求成功處理方式：獲得響應的內容，進行處理
201：請求完成，結果是創建了新資源。新創建資源的URI可在響應的實體中得到處理方式：爬蟲中不會遇到
202：請求被接受，但處理尚未完成處理方式：阻塞等待
204：服務器端已經實現了請求，但是沒有返回新的信息。如果客戶是用戶代理，則無須爲此更新自身的文檔視圖。處理方式：丟棄
300：該狀態碼不被HTTP/1.0的應用程序直接使用，只是作爲3XX類型迴應的默認解釋。存在多個可用的被請求資源。處理方式：若程序中能夠處理，則進行進一步處理，如果程序中不能處理，則丟棄
301：請求到的資源都會分配一個永久的URL，這樣就可以在將來通過該URL來訪問此資源處理方式：重定向到分配的URL
302：請求到的資源在一個不同的URL處臨時保存處理方式：重定向到臨時的URL
304：請求的資源未更新處理方式：丟棄
400：非法請求處理方式：丟棄
401：未授權處理方式：丟棄
403：禁止處理方式：丟棄
404：沒有找到處理方式：丟棄
500：服務器內部錯誤服務器遇到了一個未曾預料的狀況，導致了它無法完成對請求的處理。一般來說，這個問題都會在服務器端的源代碼出現錯誤時出現。
501：服務器無法識別服務器不支持當前請求所需要的某個功能。當服務器無法識別請求的方法，並且無法支持其對任何資源的請求。
502：錯誤網關作爲網關或者代理工作的服務器嘗試執行請求時，從上游服務器接收到無效的響應。
503：服務出錯由於臨時的服務器維護或者過載，服務器當前無法處理請求。這個狀況是臨時的，並且將在一段時間以後恢復。

HTTPError實例產生後會有一個code屬性，這就是是服務器發送的相關錯誤號。
因爲urllib2可以爲你處理重定向，也就是3開頭的代號可以被處理，並且100-299範圍的號碼指示成功，所以你只能看到400-599的錯誤號碼。

Cookie，指某些網站爲了辨別用戶身份、進行session跟蹤而儲存在用戶本地終端上的數據（通常經過加密）
比如說有些網站需要登錄後才能訪問某個頁面，在登錄之前，你想抓取某個頁面內容是不允許的。那麼我們可以利用Urllib2庫保存我們登錄的Cookie，然後再抓取其他頁面就達到目的了。

opener

當你獲取一個URL你使用一個opener(一個urllib2.OpenerDirector的實例)。在前面，我們都是使用的默認的opener，也就是urlopen。它是一個特殊的opener，可以理解成opener的一個特殊實例，傳入的參數僅僅是url，data，timeout。

如果我們需要用到Cookie，只用這個opener是不能達到目的的，所以我們需要創建更一般的opener來實現對Cookie的設置。

Cookielib

cookielib模塊的主要作用是提供可存儲cookie的對象，以便於與urllib2模塊配合使用來訪問Internet資源。Cookielib模塊非常強大，我們可以利用本模塊的CookieJar類的對象來捕獲cookie並在後續連接請求時重新發送，比如可以實現模擬登錄功能。該模塊主要的對象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。
它們的關係：CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar

獲取Cookie保存到變量

首先，我們先利用CookieJar對象實現獲取cookie的功能，存儲到變量中，先來感受一下

import urllib2
import cookielib
#聲明一個CookieJar對象實例來保存cookie
cookie = cookielib.CookieJar()
#利用urllib2庫的HTTPCookieProcessor對象來創建cookie處理器
handler=urllib2.HTTPCookieProcessor(cookie)
#通過handler來構建opener
opener = urllib2.build_opener(handler)
#此處的open方法同urllib2的urlopen方法，也可以傳入request
response = opener.open('http://www.baidu.com')

保存Cookie到文件

在上面的方法中，我們將cookie保存到了cookie這個變量中，如果我們想將cookie保存到文件中該怎麼做呢？這時，我們就要用到
FileCookieJar這個對象了，在這裏我們使用它的子類MozillaCookieJar來實現Cookie的保存

import cookielib
import urllib2

#設置保存cookie的文件，同級目錄下的cookie.txt
filename = 'cookie.txt'
#聲明一個MozillaCookieJar對象實例來保存cookie，之後寫入文件
cookie = cookielib.MozillaCookieJar(filename)
#利用urllib2庫的HTTPCookieProcessor對象來創建cookie處理器
handler = urllib2.HTTPCookieProcessor(cookie)
#通過handler來構建opener
opener = urllib2.build_opener(handler)
#創建一個請求，原理同urllib2的urlopen
response = opener.open("http://www.baidu.com")
#保存cookie到文件
cookie.save(ignore_discard=True, ignore_expires=True)

從文件中獲取Cookie並訪問

那麼我們已經做到把Cookie保存到文件中了，如果以後想使用，可以利用下面的方法來讀取cookie並訪問網站，感受一下

import cookielib
import urllib2

#創建MozillaCookieJar實例對象
cookie = cookielib.MozillaCookieJar()
#從文件中讀取cookie內容到變量
cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)
#創建請求的request
req = urllib2.Request("http://www.baidu.com")
#利用urllib2的build_opener方法創建一個opener
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
response = opener.open(req)
print response.read()

利用cookie模擬網站登錄

import urllib2
import cookielib

filename = 'cookie.txt'
#聲明一個MozillaCookieJar對象實例來保存cookie，之後寫入文件
cookie = cookielib.MozillaCookieJar(filename)
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
postdata = urllib.urlencode({
            'stuid':'201200131012',
            'pwd':'23342321'
        })
#登錄教務系統的URL
loginUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login'
#模擬登錄，並把cookie保存到變量
result = opener.open(loginUrl,postdata)
#保存cookie到cookie.txt中
cookie.save(ignore_discard=True, ignore_expires=True)
#利用cookie請求訪問另一個網址，此網址是成績查詢網址
gradeUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bkscjcx.curscopre'
#請求訪問成績查詢網址
result = opener.open(gradeUrl)
print result.read()

以上程序的原理如下:
創建一個帶有cookie的opener，在訪問登錄的URL時，將登錄後的cookie保存下來，然後利用這個cookie來訪問其他網址。

金帛文武在南京

發佈了31 篇原創文章 · 獲贊 11 · 訪問量 15萬+

私信關注

爬蟲筆記

urllib2

urlopen(url, data, timeout)

POST&GET

POST

GET

設置Headers(僞裝瀏覽器)

對付”反盜鏈””防盜鏈”

Proxy（代理）的設置

異常

URLError異常

HTTPError異常

opener

Cookielib

獲取Cookie保存到變量

保存Cookie到文件

從文件中獲取Cookie並訪問

利用cookie模擬網站登錄

如何使用 JS 判斷用戶是否處於活躍狀態

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

爲什麼深層神經網絡難以訓練

linux部分命令整理

python爬豆瓣電影Top250

快速排序

爬蟲筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結