scrapy中的Request和Response对象

2023-08-14 11:57:16

前言：

　　如果框架中的组件比做成是人的各个器官的话，那个Request和Response就是血液，Item就是代谢产物

Request对象：

　　是用来描述一个HTTP请求，其构造参数有

url
1. 请求的URL
callback
1. 回调函数
method
1. 默认是GET
headers
1. 字典类型
body
cookies
1. 字典类型
meta
1. Request中的元数据字典，dict类型，用来给框架中的其它组件来进行传递消息，比如说中间件Iten、Pipeline。其它组件可以使用request对象的meta属性来进行访问该元数据字典中的参数
encoding
priority
1. 请求的优先级默认是0，优先级高的就会优先进行下载
dont_filter
1. 默认是False，对同一个url地址多次提交下载任务请求，后面请求会被去重过滤器直接过滤掉（避免重复下载资源）。如果将该参数为True，可以让请求避免被过滤。强制进行下载。
errback
1. 当请求出现异常的时候或者HTTP错误的时候的回调函数

　　这里面虽然有很多参数，但是除了url意外其它的都是可选参数，是带有默认值的。在构造Request对象的时候，通常我们只需要传递一个url参数和callback参数，其它的都是可以直接使用默认值就可以了

Response对象：

　　是用来描述一个HTTP相应的，Response只是一个基类，根据相应的内容的不同有TextResponse、HTmlResponse、XmlResponse

　　当一个页面完成下载的时候，下载器根据HTTP响应头部中的Content-Type信息创建某个Response的子类的对象。我们通常爬取的网页中的内容就是HTML文件，所有创建的也就是HtmlResponse，其中HtmlResponse和XmlResponse是TextResponse的子类。实际上，这三个子类只有细微的差别

　　HtmlResponse对象的属性以及方法：

- url
  - HTTP响应的url地址，str类型
- status
  - HTTP响应的状态码，int类型
- headers
  - HTTP响应的头部，字典类型，可以通过get或者getlist方法对其进行访问
- body
- text
  - 文本形式的HTTP响应，str类型，是由response.body使用response.encoding解码得到的
- encoding
- request
  - 产生该HTTP响应的Request对象
- meta
  - - response.request.meta，在构造Request对象的时候，可以将要传递给回调函数的参数通过meta参数来进行传递；回调函数处理响应的时候，可以通过response.meta来进行取值
- selector
  - 用于Response提取信息
- xpath
- css
- urljoin
  - 用于构造绝对URL，当传入的URL参数是一个相对地址的时候，根据response.url计算出相应的绝对URL

码农公寓

相关文章