當爲了確保爬到的數據中沒有重複的數據的時候,可以實現一個去重的item pipeline
增加構造器方法,在其中初始化用於對與書名的去重的集合
在process_item方法中,先取出item中要判斷的字段的名稱,檢查是否已經存在集合中了,如果已經存在了就是重複的數據拋出一個DropItem的異常,並將這個item拋棄,否則就將這個item的字段保存到集合中,並返回這個item
當爲了確保爬到的數據中沒有重複的數據的時候,可以實現一個去重的item pipeline
增加構造器方法,在其中初始化用於對與書名的去重的集合
在process_item方法中,先取出item中要判斷的字段的名稱,檢查是否已經存在集合中了,如果已經存在了就是重複的數據拋出一個DropItem的異常,並將這個item拋棄,否則就將這個item的字段保存到集合中,並返回這個item