記一次使用scrapy過程中遇到的問題之過濾問題

我們都知道,scrapy的默認過濾機制是過濾已經請求過的url地址,就是說如果某個url地址在發起新的請求前已經請求過了,那麼scrapy默認會給我們過濾掉本次請求,如果想改變這種默認機制也是可以的,在發請求的時候假如參數dont_filter=True,這個值默認是False的,所以纔會過濾掉已經請求過的地址,至於過濾的原理是基於什麼,這裏不做詳細介紹,有興趣的可以看下scrapy的源碼介紹,是基於sha1的加密算法生成指紋做判斷的。

我今天遇到的這個問題其實是很low的,因爲爬取某網站中的一個接口做了更改(主要是域名改了),我只是在發起請求時把地址改成了對應的新的地址,如果沒有用過scrapy的朋友可能不知道,這還不夠,你要把新的域名假如到你爬蟲的allowed_diamond中,否則爬蟲會把這種請求自動過濾掉的,我就是因爲沒有改這裏,所以,最後結果和我預期的有很大差距,經過一番查找,才發現忘了改這裏

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章