Python爬蟲基礎-2

原創

garnetreds7

2020-06-03 21:54

異常處理問題

當urlopen不能夠處理一個req時，產生urlError。不過通常的Python APIs異常如ValueError,TypeError等也會同時產生。HTTPError是urlError的子類，通常在特定HTTP URLs中產生。

URLError

通常，URLError在沒有網絡連接(沒有路由到特定服務器)，或者服務器不存在的情況下產生。這種情況下，異常同樣會帶有”reason”屬性，它是一個tuple（可以理解爲不可變的數組），包含了一個錯誤號和一個錯誤信息。

import urllib2
req = urllib2.Request('http://www.baibai.com')
try:
    urllib2.urlopen(req)
except urllib2.URLError, e:
    print e.reason

HTTPError

服務器上每一個HTTP 應答對象response包含一個數字”狀態碼”。有時狀態碼指出服務器無法完成請求。默認的處理器會爲你處理一部分這種應答。例如:假如response是一個”重定向”，需要客戶端從別的地址獲取文檔，urllib2將爲你處理。其他不能處理的，urlopen會產生一個HTTPError。

HTTP狀態碼錶示HTTP協議所返回的響應的狀態。比如客戶端向服務器發送請求，如果成功地獲得請求的資源，則返回的狀態碼爲200，表示響應成功。如果請求的資源不存在，則通常返回404錯誤。

HTTP狀態碼通常分爲5種類型，分別以1～5五個數字開頭，由3位整數組成：

200：請求成功處理方式：獲得響應的內容，進行處理
201：請求完成，結果是創建了新資源。新創建資源的URI可在響應的實體中得到處理方式：爬蟲中不會遇到
202：請求被接受，但處理尚未完成處理方式：阻塞等待
204：服務器端已經實現了請求，但是沒有返回新的信息。如果客戶是用戶代理，則無須爲此更新自身的文檔視圖。處理方式：丟棄
300：該狀態碼不被HTTP/1.0的應用程序直接使用，只是作爲3XX類型迴應的默認解釋。存在多個可用的被請求資源。處理方式：若程序中能夠處理，則進行進一步處理，如果程序中不能處理，則丟棄
301：請求到的資源都會分配一個永久的URL，這樣就可以在將來通過該URL來訪問此資源處理方式：重定向到分配的URL
302：請求到的資源在一個不同的URL處臨時保存處理方式：重定向到臨時的URL
304：請求的資源未更新處理方式：丟棄
400：非法請求處理方式：丟棄
401：未授權處理方式：丟棄
403：禁止處理方式：丟棄
404：沒有找到處理方式：丟棄
5XX：迴應代碼以“5”開頭的狀態碼錶示服務器端發現自己出現錯誤，不能繼續執行請求處理方式：丟棄

HTTPError實例產生後會有一個整型’code’屬性，是服務器發送的相關錯誤號，即Error Codes錯誤碼。

Error Codes錯誤碼：
因爲默認的處理器處理了重定向(300以外號碼)，並且100-299範圍的號碼指示成功，所以只能看到400-599的錯誤號碼。

當一個錯誤號產生後，服務器返回一個HTTP錯誤號，和一個錯誤頁面。可以使用HTTPError實例作爲頁面返回的應答對象response。和錯誤屬性一樣，它同樣包含了read,geturl,和info方法。

import urllib2
req = urllib2.Request('http://bbs.csdn.net/callmewhy')
try:
    urllib2.urlopen(req)
except urllib2.URLError, e:
    print e.code

BaseHTTPServer.BaseHTTPRequestHandler.response是一個很有用的應答號碼字典，顯示了HTTP協議使用的所有的應答號。

Wrapping

爲HTTPError或URLError做準備，將有兩個基本的辦法。推薦使用第二種。

第一種異常處理的方案：

from urllib2 import Request, urlopen, URLError, HTTPError

req = Request('http://bbs.csdn.net/callmewhy')

try:
    response = urlopen(req)
except HTTPError, e:
    print 'The server couldn\'t fulfill the request.'
    print 'Error code: ', e.code
except URLError, e:
    print 'We failed to reach a server.'
    print 'Reason: ', e.reason
else:
    print 'No exception was raised.'# everything is fine

這裏要注意的一點，except HTTPError 必須在第一個，否則except URLError將同樣接受到HTTPError 。因爲HTTPError是URLError的子類，如果URLError在前面它會捕捉到所有的URLError（包括HTTPError ）。

第二種異常處理的方案：

from urllib2 import Request, urlopen, URLError, HTTPError

req = Request('http://bbs.csdn.net/callmewhy')

try:
    response = urlopen(req)
except URLError, e:
    if hasattr(e, 'code'):
        print 'The server couldn\'t fulfill the request.'
        print 'Error code: ', e.code
    elif hasattr(e, 'reason'):
        print 'We failed to reach a server.'
        print 'Reason: ', e.reason
else:
    print 'No exception was raised.'

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python爬蟲基礎-2

異常處理問題

URLError

HTTPError

Wrapping

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

sklearn初步學習

Scrapy 學習

Python爬蟲基礎-3

Python爬蟲基礎-2

python中關於時間變量的處理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結