Python北理工mooc爬蟲筆記之requests庫

request.get()函數原型

request對象的屬性方法

 

r.text與r.content的區別

r.text是程序根據猜測的響應內容編碼方式來編寫的,也就是r.encoding,這個編碼方式是從返回信息中的headers中獲取到的,如果headers中沒有,那麼則默認爲ISO-8859-1,而r.apparent_encoding是從網頁html文件中信息解析出來的編碼,一般來說使用r.text獲取網頁的信息,如果r.text出現亂碼,纔會使用r.content.decoding("r.apparent_encoding")來讀取網頁信息

 Requests庫的異常

爬取網頁的通用代碼框架

Request庫的基本方法

http協議 

其中URL格式爲

URL舉例

HTTP對資源的操作種類

補充:當我們發現我們要訪問的資源很大時,讓服務器返回信息需要花費很大的代價時,我們可以使用head讓服務器返回資源的頭部信息。

PATCH和PUT的區別

Request庫的head()方法

 Request庫中的post()方法

 

 

Requests庫的put方法

 

requests.request函數的原型

可以使用requests.request('GET',url)也可以使用requests.get(url),後者是將前者封裝起來的方法

13個參數

1.params

我們提交的鍵值對會放在url鏈接裏

2.data

 這時候我們的鍵值對會放在url鏈接對應的數據域裏存儲

3.json

html最經常使用的數據格式

4.headers

對應向某個http發起請求時的頭字段,可以在請求時附加headers來僞裝爬蟲

 

 5和6.cookies和auth

 

 

7.files

8.timeout

9.proxies

 

剩下的參數爲

 

requests.get函數

requests.head()函數

 

requests.post()函數

 

requests.delete()函數

 

 

爲什麼這些函數會把requests.request裏的kwargs參數提到外面來呢?是因爲提到外面的都是常用的,便於我們直接賦值

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章