scrapy中的Request和Response對象

原創

tulintao

2019-10-19 13:17

前言：

　　如果框架中的組件比做成是人的各個器官的話，那個Request和Response就是血液，Item就是代謝產物

Request對象：

　　是用來描述一個HTTP請求，其構造參數有

url
1. 請求的URL
callback
1. 回調函數
method
1. 默認是GET
headers
1. 字典類型
body
cookies
1. 字典類型
meta
1. Request中的元數據字典，dict類型，用來給框架中的其它組件來進行傳遞消息，比如說中間件Iten、Pipeline。其它組件可以使用request對象的meta屬性來進行訪問該元數據字典中的參數
encoding
priority
1. 請求的優先級默認是0，優先級高的就會優先進行下載
dont_filter
1. 默認是False，對同一個url地址多次提交下載任務請求，後面請求會被去重過濾器直接過濾掉（避免重複下載資源）。如果將該參數爲True，可以讓請求避免被過濾。強制進行下載。
errback
1. 當請求出現異常的時候或者HTTP錯誤的時候的回調函數

　　這裏面雖然有很多參數，但是除了url意外其它的都是可選參數，是帶有默認值的。在構造Request對象的時候，通常我們只需要傳遞一個url參數和callback參數，其它的都是可以直接使用默認值就可以了

Response對象：

　　是用來描述一個HTTP相應的，Response只是一個基類，根據相應的內容的不同有TextResponse、HTmlResponse、XmlResponse

　　當一個頁面完成下載的時候，下載器根據HTTP響應頭部中的Content-Type信息創建某個Response的子類的對象。我們通常爬取的網頁中的內容就是HTML文件，所有創建的也就是HtmlResponse，其中HtmlResponse和XmlResponse是TextResponse的子類。實際上，這三個子類只有細微的差別

　　HtmlResponse對象的屬性以及方法：

- url
  - HTTP響應的url地址，str類型
- status
  - HTTP響應的狀態碼，int類型
- headers
  - HTTP響應的頭部，字典類型，可以通過get或者getlist方法對其進行訪問
- body
- text
  - 文本形式的HTTP響應，str類型，是由response.body使用response.encoding解碼得到的
- encoding
- request
  - 產生該HTTP響應的Request對象
- meta
  - - response.request.meta，在構造Request對象的時候，可以將要傳遞給回調函數的參數通過meta參數來進行傳遞；回調函數處理響應的時候，可以通過response.meta來進行取值
- selector
  - 用於Response提取信息
- xpath
- css
- urljoin
  - 用於構造絕對URL，當傳入的URL參數是一個相對地址的時候，根據response.url計算出相應的絕對URL

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

scrapy中的Request和Response對象

《日本蠟燭圖》讀書筆記 & 技術分析回測

Python多線程編程深度探索：從入門到實戰

《期貨-市場技術分析》讀書筆記

mongodb處理json數據很好

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

google瀏覽器插件開發

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

CSS3彈窗動畫效果

vscode設置垂直長度輔助線視覺限制長度

LC236

前端權限設計

git fetch 和 git pull的區別

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結