记一次使用scrapy过程中遇到的问题之过滤问题

我们都知道,scrapy的默认过滤机制是过滤已经请求过的url地址,就是说如果某个url地址在发起新的请求前已经请求过了,那么scrapy默认会给我们过滤掉本次请求,如果想改变这种默认机制也是可以的,在发请求的时候假如参数dont_filter=True,这个值默认是False的,所以才会过滤掉已经请求过的地址,至于过滤的原理是基于什么,这里不做详细介绍,有兴趣的可以看下scrapy的源码介绍,是基于sha1的加密算法生成指纹做判断的。

我今天遇到的这个问题其实是很low的,因为爬取某网站中的一个接口做了更改(主要是域名改了),我只是在发起请求时把地址改成了对应的新的地址,如果没有用过scrapy的朋友可能不知道,这还不够,你要把新的域名假如到你爬虫的allowed_diamond中,否则爬虫会把这种请求自动过滤掉的,我就是因为没有改这里,所以,最后结果和我预期的有很大差距,经过一番查找,才发现忘了改这里

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章