multiprocessing 使用 Process+Queue 的多進程爬蟲示例

原創

2020-02-26 02:40

《Python網絡爬蟲：從入門到實踐》書中7.3.1節講到，使用multiprocessing庫的第一種方法，是Process+Queue 的多進程爬蟲，還給出一個例子，發現有重大邏輯bug，經1天時間研究，將正確的代碼公佈出來，方便廣大愛好者使用、參考。

以下代碼同時統計了各個子進程爬取的頁面數量，已經在Pycharm 5.0.3上測試通過，歡迎大家評論留言，有問題我看到後會及時回覆，謝謝。

from multiprocessing import Process, Queue, cpu_count
import time
import requests

class MyProcess(Process):
    def __init__(self, q,amount=0):
        Process.__init__(self)
        self.q = q
        self.amount = amount

    def run(self):
        times = 0
        print ("Starting " , self.pid)
        while not self.q.empty():
            times += 1
            crawler(self.q)
        self.amount = times
        print ("pid爲",self.pid,"的子進程嘗試連接的頁面數量是：",self.amount)
        print ("Exiting " , self.pid)

def crawler(q):
    url = q.get(timeout=2)
    try:
        r = requests.get(url, timeout=20)
        print (q.qsize(), r.status_code, url)
    except Exception as e:
        print (q.qsize(), url, 'Error: ', e)

# 保證當前的.p

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

multiprocessing 使用 Process+Queue 的多進程爬蟲示例

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

2020年上半年數據庫系統工程師考試

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

csv格式文件

requests後用 soup.find 找不到指定標籤的原因分析

Python 多協程實驗時報錯 Error: maximum recursion depth exceeded 程序退出代碼1073741571

scrapy框架下使用SitemapSpider爬取織夢園模板網的網站地圖

armeabi-v7a__ndk_target_21/python3/Include/Python.h:8:10: fatal error:'pyconfig.h' file not found

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結