Requests庫入門

爬取網頁通用代碼框架：

try:

r = requests.get(url,timeout=30)

r.raise_for_status() #如果返回的狀態碼不是200，引發HTTPErrow異常

r.enconding = r.apparent_encoding

return r.text

except:

return "產生異常"

r = requests.get(url,params=None,**kwargs) #獲取網頁信息的主要方法

url：擬獲取頁面的url鏈接

params：url中的額外參數，字典或字節流格式，可選

**kwargs：12個控制訪問參數，可選

r：包含爬蟲返回的全部對象

r.status_code：檢測請求的狀態碼，如果狀態嗎是200訪問成功，否則失敗

r.encoding：從HTTP header中猜測的響應內容編碼方式

如果header中不存在charset，則認爲編碼爲ISO-8859-1，這樣的編碼不能解析中文

r.apparent_encoding：從內容中分析出的響應內容編碼方式

r.text：HTTP響應內容的字符串形式，即url對應的頁面內容

用get方法獲取網絡資源流程：

用r.status_code檢查他的Respense對象的狀態

if 200:

r.text r.encoding r.apparent_encoding 等解析反回內容

else:

某些原因出錯將產生異常

r = requests.head(url) #獲取網頁資源概要信息

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.