爬虫url去重管理

原創

2019-01-21 22:17

用于记录学习爬虫过程中遇到的断点续爬、url去重问题学习。
环境

redis
python
第三方库 redis 。安装 pip install redis

核心功能，基于redis里面set类型，达到去重，插入，记录的小功能。
代理实现：


import redis

class UrlManager:
	def __init__(spider_name='',host='127.0.0.1',port=6379):
		'''初始redis连接'''
		self.__conn = redis.Redis(host=host,port=port)
		self.__new = spider_name + '_new'#存放待爬取url
		self.__old = spider_name +'_old'#存放已爬取url
	def adds(self,*args):
		"""插入待爬取url，记录已爬取url"""
			for url in agrs:
				if not self.__conn.sismember(self.__old,url):#判断是否是已爬取url元素，返回TRUE则存在，否则，写入待爬取url
					self.__conn.sadd(self.__new,url)
			else:
				return True
	def get_url(self):
		"""从待爬取集合获取要爬取url供给爬虫"""
		url = self.__conn.spop(self.__new)#待爬取集合获取url
		if url :
			self.__conn.sadd(self.__old,url)#写入已爬取集合，并且返回该条url
			return url
		else:
			return False
	def back_error(self,url):
		"""对于请求失败的url，则继续加入代爬取集合"""
		try :
			self.__conn.smove(self.__old,self__new,url,url)
			return True
		except:
			return False
	
	def count_newurl(self):
		"""获取未爬取url数量"""
		return self.__conn.scard(self.__new)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Requests库基础入门

1.Requests庫入門中文文檔：https://requests.readthedocs.io/zh_CN/latest/ gittub地址：https://github.com/requests/requests 更多信息

2020-07-06 08:31:07

爬虫学习：scrapy相关的知识

Scrapy 是開源的爬蟲框架，快速強大，只需要寫少量的代碼即可完成爬取任務，容易擴展，添加新的功能模塊 1. scrapy 在Mac上的安裝可以使用pip安裝Scrapy 運行命令 sudo pip ins

2020-07-03 11:57:40

Python爬虫学习之selenium+ChromeDriver实现爬虫

selenium+ChromeDriver實現爬蟲參考：https://blog.csdn.net/u010986776/article/details/79266448 selenium所做的事情，恰恰是驅動真正的瀏覽器去執行

2020-07-02 00:25:55

Python爬虫学习之API与模拟ajax请求

API的使用 ——通過API向服務器請求數據優點：簡單直接，高效率地批量爬取；解決動態網頁的爬取。缺點：通過API的缺點是有些網站會限制API調用的次數和頻率，用戶需要付費來升級成高級用戶來獲取更靈活的API調用。 HTTP協

2020-07-02 00:25:54

Python爬虫学习之下载源文件与数据存储

下載源文件與數據存儲下載源文件 urlretrieve 多用於非結構化的數據（圖片等），以下載http://www.pythonscraping.com 上的logo.jpg爲例： '''urlretrieve''' from

2020-07-02 00:25:54

Python爬虫库学习笔记-requests

安裝（1）利用pip安裝，命令行直接輸入pip install requests （2）利用easy_install安裝，命令行直接輸入easy_install requests 基本請求（1）requests庫提供h

2020-06-29 04:02:16

Python爬虫实践笔记（三）

網頁式登錄的無線網絡重連–本質註釋：事實上這個程序就是在連接了某個無線網之後，登錄該無線網指定的頁面，然後就可以正常上網了。跟爬蟲的連接和登錄網頁的本質是一樣的，只是需要分析一下請求和響應數據，以至於能夠實現重連。第一步：分

2020-06-29 04:02:16

Python爬虫实践笔记（二）

無登錄百度貼吧的帖子基本步驟： ①分析url ②獲取頁面 ③提取信息 ④文本處理 ⑤寫入文件備註：基本框架跟筆記（一）很相似，只是多了很多細節需要處理，所以這裏着重描述細節的處理。第一步：分析url （1）像段子、貼吧

2020-06-29 04:02:16

Python爬虫学习笔记--MySQLdb模块

mysql數據庫和MySQLdb模塊相關問題下載與安裝（1）首先，python要使用數據庫不是僅僅安裝相應的模塊就行的，安裝的模塊，例如這裏的MySQLdb模塊只是一個訪問mysql數據庫的接口。所以還是必須要下載一個數據庫的

2020-06-29 04:02:06

爬虫实战——xpath爬取电影天堂

from lxml import etree import requests HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Apple

SLEEPYHEAD's Blog

2020-06-28 05:25:00

爬虫实战——古诗文网古诗爬取

import re import requests # url = 'https://www.gushiwen.org/default_1.aspx' def parse_page(url): headers = {

SLEEPYHEAD's Blog

2020-06-28 05:25:00

查看网页编码方式的通用方法

在python爬蟲等各種情景模式下，往往需要查看網頁的編碼方式。下面是通用，簡單的方法。在各種瀏覽器打開的任意頁面上使用F12功能鍵，即可使用開發者工具，在窗口console標籤下，鍵入 "document.charset" 即可查看網

张少锋的博客

2020-06-17 08:30:54

2019最牛Python书单，学习Python的小伙伴看这里！

Python 是軍刀型的開源工具，被廣泛應用於Web 開發、爬蟲、數據清洗、自然語言處理、機器學習和人工智能等方面，而且Python 的語法簡潔易讀，這讓許多編程入門者不再望而卻步，因此Python 在最近幾年非常受歡迎，各行各業的技術

2020-06-15 00:57:09

Python 爬虫十六式 - 第七式：RE：用匹配来演绎编程的艺术

RE：用匹配來演繹編程的藝術學習一時爽，一直學習一直爽 Hello，大家好，我是 Connor，一個從無到有的技術小白。上一次我們說到了 pyquery 今天我們將迎來我們數據匹配部分的最後一位重量級人物，也是編程語言中

2020-06-10 10:42:02

Python 爬虫十六式 - 第一式：HTTP协议

HTTP：偉大而又無聞的協議學習一時爽，一直學習一直爽！ Hello，大家好啊，我是Connor，一個從無到有的技術小白。有的人一說什麼是HTTP協議就犯愁，寫東西的時候也沒想過什麼是HTTP協議，只是知道HTTP協議

2020-06-10 10:42:02

24小時熱門文章

最新文章

最新評論文章