Python爬蟲庫學習筆記-requests

安裝
(1)利用pip安裝,命令行直接輸入pip install requests
(2)利用easy_install安裝,命令行直接輸入easy_install requests


基本請求
(1)requests庫提供http所有的基本請求方式,get,post,put,delete,head,options。


基本GET請求
(1)直接使用get方法。
(2)想要加參數,在get方法內傳入params參數,get方法會幫你把url和參數連接起來。
(3)想要請求json文件的話,可以使用json()方法來解析。
(4)想要獲取來自服務器的原始套接字響應,可以使用raw()方法,同時需要在get()請求中設置stream參數爲True。
(5)想要添加headers信息,要向get()方法裏的headers參數傳遞一個包含信息的字典。


基本POST請求
(1)對於post請求,我們最起碼需要以字典的形式傳遞data參數。
(2)當我們需要傳送的信息不是表單形式,而是json格式的時候,我們可以使用json.dums()方法把表單數據序列化後傳遞給data參數。
(3)如果想要上傳文件,直接使用post裏面的files參數。
(4)requests支持流式上傳的,這就允許你發送大的數據流或文件而無需把它們讀入內存。要使用流式上傳,需要爲請求體提供一個類文件對象,然後傳遞給data參數。


Cookies
(1)如果一個響應包含了cookie,那麼我們可以利用cookies變量獲取到。
(2)請求方法中含有cookies參數,允許我們向服務器發送cookies信息,cookies參數接收的是字典類型的數據。


超時配置
(1)使用請求方法中的timeout參數來設置最大的請求時間,需要注意的是timeout只是對連接過程有效,與響應體的下載無關。


會話對象
(1)每使用一個請求方法,都相當於新開一個會話。要想保持一個持久的會話需要使用創建會話對象Session,然後由會話對象來調用請求方法。相同會話調用的請求方法等於同一個會話。
(2)可以通過s.headers.update()方法設置headers中的信息。
(3)通過(2)方法設置headers信息與使用請求方法中的headers參數設置是不衝突的,也就是會在最後同時添加上去,但是相同的信息會被覆蓋。
(4)如果要刪除headers中某個信息,把該信息對應的值設置爲None,然後以字典的形式傳遞給headers參數即可。


SSL證書驗證
(1)對於https開頭的網站我們可以請求驗證SSL證書。
(2)requests可以爲HTTPS請求驗證SSL證書,在請求方法中設置verify參數爲True。
(3)是否請求要按需求來,不一定要請求才能獲取頁面相應的。


代理
(1)如果需要使用代理,可以通過爲任意請求方法提供proxies參數來配置單個請求,以字典的形式給proxies參數設置形參。


官方文檔:
requests官方文檔


具體內容請看:
靜覓 » Python爬蟲利器一之requests庫的用法

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章