multiprocessing 使用 Process+Queue 的多进程爬虫示例

原創

2020-02-26 02:40

《Python网络爬虫：从入门到实践》书中7.3.1节讲到，使用multiprocessing库的第一种方法，是Process+Queue 的多进程爬虫，还给出一个例子，发现有重大逻辑bug，经1天时间研究，将正确的代码公布出来，方便广大爱好者使用、参考。

以下代码同时统计了各个子进程爬取的页面数量，已经在Pycharm 5.0.3上测试通过，欢迎大家评论留言，有问题我看到后会及时回复，谢谢。

from multiprocessing import Process, Queue, cpu_count
import time
import requests

class MyProcess(Process):
    def __init__(self, q,amount=0):
        Process.__init__(self)
        self.q = q
        self.amount = amount

    def run(self):
        times = 0
        print ("Starting " , self.pid)
        while not self.q.empty():
            times += 1
            crawler(self.q)
        self.amount = times
        print ("pid为",self.pid,"的子进程尝试连接的页面数量是：",self.amount)
        print ("Exiting " , self.pid)

def crawler(q):
    url = q.get(timeout=2)
    try:
        r = requests.get(url, timeout=20)
        print (q.qsize(), r.status_code, url)
    except Exception as e:
        print (q.qsize(), url, 'Error: ', e)

# 保证当前的.p

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Kotlin Fuel库：图像下载过程中的异常处理

在現代移動和Web開發中，處理圖像下載是一項常見任務。Kotlin作爲一種現代的、表達能力強的編程語言，因其簡潔性和對Android開發的支持而廣受歡迎。Fuel庫是一個輕量級的、易於使用的Kotlin HTTP客

2024-06-15 00:07:56

动态线程池思想学习及实践

相關文檔美團線程池實踐： https://tech.meituan.com/2020/04/02/java-pooling-pratice-in-meituan.html 線程池思想解析： https://www.javadoop.

2024-06-13 23:54:49

ClickHouse内幕（1）数据存储与过滤机制

本文主要講述ClickHouse中的數據存儲結構，包括文件組織結構和索引結構，以及建立在其基礎上的數據過濾機制，從Part裁剪到Mark裁剪，最後到基於SIMD的行過濾機制。數據過濾機制實質上是構建在數據存儲格式之上的算法，所以在介紹過濾

2024-06-07 23:54:51

网页爬虫开发：使用Scala和PhantomJS访问知乎

引言隨着大數據時代的到來，網頁爬蟲作爲一種高效的數據收集工具，被廣泛應用於互聯網數據抓取和信息抽取。而知乎是一個知識分享平臺，擁有大量的用戶生成內容。通過爬蟲獲取知乎數據，企業和研究人員可以進行深入的數據分析和市場研究，瞭解用戶的需求

2024-05-31 00:11:23

向量数据库引领 AI 创新——Zilliz 亮相 2024 亚马逊云科技中国峰会

2024年5月29日，亞馬遜雲科技中國峯會在上海召開，此次峯會聚集了來自全球各地的科技領袖、行業專家和創新企業，探討雲計算、大數據、人工智能等前沿技術的發展趨勢和應用場景。作爲領先的向量數據庫技術公司，Zilliz 在本次峯會上展示了最新的

2024-05-30 21:25:17

构建强韧：爱奇艺VRS系统可用性建设实践

導語：愛奇藝作爲網絡視頻播放平臺，其核心服務是播放用戶選擇的視頻內容。VRS（Video Relay Service）是公司所有平臺播放功能的入口服務，它的主要功能包括播放策略控制（播控）、碼流選擇和下發視頻文件地址等。VRS

2024-05-28 02:22:00

从入门到精通：掌握Scrapy框架的关键技巧

在當今信息爆炸的時代，獲取並利用網絡數據成爲了許多行業的核心競爭力之一。而作爲一名數據分析師、網絡研究者或者是信息工作者，要想獲取網絡上的大量數據，離不開網絡爬蟲工具的幫助。而Scrapy框架作爲Python語言中最爲強大的網絡爬蟲框架之

2024-05-25 00:09:06

DolphinScheduler 3.3.0版本更新一览

Apache DolphinScheduler即將迎來3.3.0版本的發佈，屆時將有一系列重要的更新和改進。在近期的社區5月份用戶線上分享會上，項目PMC 阮文俊爲大家介紹了3.3.0版本將帶來的主要更新和改進，併爲大家指出瞭如何參與社區的

2024-05-23 21:22:09

五款扩展组件齐发 —— Volcano、Keda、Crane-scheduler 等，邀你体验

今年 3 月，KubeSphere 啓動了首屆擴展組件開發者訓練營，吸引了 60 名開發者報名。經過一個半月的密集培訓和實戰演練，這些開發者成功打造了五款創新的擴展組件，現已全部上架至 KubeSphere Marketplace，歡迎大家

2024-05-23 11:17:40

O2OA(翱途)开发平台数据统计如何配置？

O2OA提供的數據管理中心，可以讓用戶通過配置的形式完成對數據的彙總，統計和數據分組展現，查詢和搜索數據形成列表數據展現。也支持用戶配置獨立的數據表來適應特殊的業務的數據存儲需求。本文主要介紹如何在O2OA中開發和配置統計。一、先決

2024-05-20 22:48:18

openGemini v1.2.0版本正式发布，IoT 场景性能大幅提升！

本文分享自華爲雲社區《openGemini v1.2.0版本正式發佈，IoT 場景性能大幅提升！》，作者：華爲雲開源。在openGemini v1.2.0版本中，我們爲您帶來了一系列令人振奮的內核優化，將您的體驗提升到新的高度，這包括

2024-05-15 10:59:42

多点 Dmall x TiDB：出海多云多活架构下的 TiDB 运维实战

作者：多點，唐萬民導讀時隔 2 年，在 TiDB 社區成都地區組織者馮光普老師的協助下，TiDB 社區線下地區活動再次來到成都。來自多點 Dmall 的國內數據庫負責人唐萬民老師，在《出海多雲架構，多點 TiDB 運維實戰》的主題分享

2024-05-15 10:48:37

画像系统人群服务数据存储架构的演进与创新| 京东云技术团队

一、畫像系統命中接口相關簡介什麼是畫像系統標籤畫像系統是一種數據管理和分析工具，它通過整合和分析用戶的行爲數據、交易數據、社交數據等多維度信息，構建出用戶的詳細畫像，幫助咱們運營人員更好地理解目標用戶羣體，從而實現精準營銷和精細

2024-05-14 23:57:28

我拍了拍Redis，被移出了群聊···

01 Redis的新煩惱你好，我是Redis，一個叫Antirez的男人把我帶到了這個世界上。自從上次被拉入羣聊之後，我就從一個人單打獨鬥變成了團隊合作，在小夥伴們的共同努力下，不僅有主從複製可以數據備份，還有哨兵節點負責監控管理

2024-05-14 01:06:44

Zabbix+OceanBase：突破数据瓶颈，提升运维效率

Zabbix+OceanBase:突破數據瓶頸，提升運維效率近日，由於Zabbix與OceanBase完成兼容性互認證，雙方積極參與對方活動。 OceanBase技術專家蔡飛志、 OceanBase佈道師鄭曉

2024-05-13 22:34:42

24小時熱門文章

Wireshark 安装+使用（一）

最新文章

最新評論文章