在scrapy中過濾重複的數據

當爲了確保爬到的數據中沒有重複的數據的時候,可以實現一個去重的item pipeline

 

增加構造器方法,在其中初始化用於對與書名的去重的集合

 

在process_item方法中,先取出item中要判斷的字段的名稱,檢查是否已經存在集合中了,如果已經存在了就是重複的數據拋出一個DropItem的異常,並將這個item拋棄,否則就將這個item的字段保存到集合中,並返回這個item

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章