scrapy中的Request和Response对象

原創

tulintao

2019-10-19 13:17

前言：

　　如果框架中的组件比做成是人的各个器官的话，那个Request和Response就是血液，Item就是代谢产物

Request对象：

　　是用来描述一个HTTP请求，其构造参数有

url
1. 请求的URL
callback
1. 回调函数
method
1. 默认是GET
headers
1. 字典类型
body
cookies
1. 字典类型
meta
1. Request中的元数据字典，dict类型，用来给框架中的其它组件来进行传递消息，比如说中间件Iten、Pipeline。其它组件可以使用request对象的meta属性来进行访问该元数据字典中的参数
encoding
priority
1. 请求的优先级默认是0，优先级高的就会优先进行下载
dont_filter
1. 默认是False，对同一个url地址多次提交下载任务请求，后面请求会被去重过滤器直接过滤掉（避免重复下载资源）。如果将该参数为True，可以让请求避免被过滤。强制进行下载。
errback
1. 当请求出现异常的时候或者HTTP错误的时候的回调函数

　　这里面虽然有很多参数，但是除了url意外其它的都是可选参数，是带有默认值的。在构造Request对象的时候，通常我们只需要传递一个url参数和callback参数，其它的都是可以直接使用默认值就可以了

Response对象：

　　是用来描述一个HTTP相应的，Response只是一个基类，根据相应的内容的不同有TextResponse、HTmlResponse、XmlResponse

　　当一个页面完成下载的时候，下载器根据HTTP响应头部中的Content-Type信息创建某个Response的子类的对象。我们通常爬取的网页中的内容就是HTML文件，所有创建的也就是HtmlResponse，其中HtmlResponse和XmlResponse是TextResponse的子类。实际上，这三个子类只有细微的差别

　　HtmlResponse对象的属性以及方法：

- url
  - HTTP响应的url地址，str类型
- status
  - HTTP响应的状态码，int类型
- headers
  - HTTP响应的头部，字典类型，可以通过get或者getlist方法对其进行访问
- body
- text
  - 文本形式的HTTP响应，str类型，是由response.body使用response.encoding解码得到的
- encoding
- request
  - 产生该HTTP响应的Request对象
- meta
  - - response.request.meta，在构造Request对象的时候，可以将要传递给回调函数的参数通过meta参数来进行传递；回调函数处理响应的时候，可以通过response.meta来进行取值
- selector
  - 用于Response提取信息
- xpath
- css
- urljoin
  - 用于构造绝对URL，当传入的URL参数是一个相对地址的时候，根据response.url计算出相应的绝对URL

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

scrapy中的Request和Response对象

CSS3彈窗動畫效果

vscode設置垂直長度輔助線視覺限制長度

LC236

前端權限設計

git fetch 和 git pull的區別

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結