多進程爬蟲示例

原創

Heisenberg-William

2019-10-25 17:43

import requests
import time
from multiprocessing import Process,Queue
link_list=[]
link_head="http://"
f=open(r"C:\Users\Heisenberg\Desktop\newfile.txt", "r")
web_list=f.readlines()
for each in web_list[0:10]:
    link=link_head+each.replace('\n','')
    link_list.append(link)
start=time.time()
class MyProcess(Process):
    def __init__(self,q):
        Process.__init__(self)
        self.q=q
    def run(self):
        #print('hello')
        print("start ",self.pid)
        while not self.q.empty():
            crawler(self.q)
        print('exiting ',self.pid)

def crawler(q):
    url=q.get(timeout=2)
    try:
        r=requests.get(url,timeout=20)
        print(q.qsize(),r.status_code,url)
    except Exception as e:
        print(q.qsize(),url,'Error ',e)
if __name__=='__main__':
    ProcessNames=['Process-1','Process-2','Process-3']
    process=[]
    workQueue=Queue(10)
    for url in link_list:
        #print(url)
        workQueue.put(url)
    for i in range(0,3):
        p=MyProcess(workQueue)
        #p.daemon=True
        p.start()
        #print('hello')
        p.join()
    end=time.time()
    print('total time ',end-start)
    print('main process exit')

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Requests庫基礎入門

1.Requests庫入門中文文檔：https://requests.readthedocs.io/zh_CN/latest/ gittub地址：https://github.com/requests/requests 更多信息

2020-07-06 08:31:07

爬蟲學習：scrapy相關的知識

Scrapy 是開源的爬蟲框架，快速強大，只需要寫少量的代碼即可完成爬取任務，容易擴展，添加新的功能模塊 1. scrapy 在Mac上的安裝可以使用pip安裝Scrapy 運行命令 sudo pip ins

2020-07-03 11:57:40

Python爬蟲學習之selenium+ChromeDriver實現爬蟲

selenium+ChromeDriver實現爬蟲參考：https://blog.csdn.net/u010986776/article/details/79266448 selenium所做的事情，恰恰是驅動真正的瀏覽器去執行

2020-07-02 00:25:55

Python爬蟲學習之API與模擬ajax請求

API的使用 ——通過API向服務器請求數據優點：簡單直接，高效率地批量爬取；解決動態網頁的爬取。缺點：通過API的缺點是有些網站會限制API調用的次數和頻率，用戶需要付費來升級成高級用戶來獲取更靈活的API調用。 HTTP協

2020-07-02 00:25:54

Python爬蟲學習之下載源文件與數據存儲

下載源文件與數據存儲下載源文件 urlretrieve 多用於非結構化的數據（圖片等），以下載http://www.pythonscraping.com 上的logo.jpg爲例： '''urlretrieve''' from

2020-07-02 00:25:54

Python爬蟲庫學習筆記-requests

安裝（1）利用pip安裝，命令行直接輸入pip install requests （2）利用easy_install安裝，命令行直接輸入easy_install requests 基本請求（1）requests庫提供h

2020-06-29 04:02:16

Python爬蟲實踐筆記（三）

網頁式登錄的無線網絡重連–本質註釋：事實上這個程序就是在連接了某個無線網之後，登錄該無線網指定的頁面，然後就可以正常上網了。跟爬蟲的連接和登錄網頁的本質是一樣的，只是需要分析一下請求和響應數據，以至於能夠實現重連。第一步：分

2020-06-29 04:02:16

Python爬蟲實踐筆記（二）

無登錄百度貼吧的帖子基本步驟： ①分析url ②獲取頁面 ③提取信息 ④文本處理 ⑤寫入文件備註：基本框架跟筆記（一）很相似，只是多了很多細節需要處理，所以這裏着重描述細節的處理。第一步：分析url （1）像段子、貼吧

2020-06-29 04:02:16

Python爬蟲學習筆記--MySQLdb模塊

mysql數據庫和MySQLdb模塊相關問題下載與安裝（1）首先，python要使用數據庫不是僅僅安裝相應的模塊就行的，安裝的模塊，例如這裏的MySQLdb模塊只是一個訪問mysql數據庫的接口。所以還是必須要下載一個數據庫的

2020-06-29 04:02:06

爬蟲實戰——xpath爬取電影天堂

from lxml import etree import requests HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Apple

SLEEPYHEAD's Blog

2020-06-28 05:25:00

爬蟲實戰——古詩文網古詩爬取

import re import requests # url = 'https://www.gushiwen.org/default_1.aspx' def parse_page(url): headers = {

SLEEPYHEAD's Blog

2020-06-28 05:25:00

查看網頁編碼方式的通用方法

在python爬蟲等各種情景模式下，往往需要查看網頁的編碼方式。下面是通用，簡單的方法。在各種瀏覽器打開的任意頁面上使用F12功能鍵，即可使用開發者工具，在窗口console標籤下，鍵入 "document.charset" 即可查看網

张少锋的博客

2020-06-17 08:30:54

2019最牛Python書單，學習Python的小夥伴看這裏！

Python 是軍刀型的開源工具，被廣泛應用於Web 開發、爬蟲、數據清洗、自然語言處理、機器學習和人工智能等方面，而且Python 的語法簡潔易讀，這讓許多編程入門者不再望而卻步，因此Python 在最近幾年非常受歡迎，各行各業的技術

2020-06-15 00:57:09

Python 爬蟲十六式 - 第七式：RE：用匹配來演繹編程的藝術

RE：用匹配來演繹編程的藝術學習一時爽，一直學習一直爽 Hello，大家好，我是 Connor，一個從無到有的技術小白。上一次我們說到了 pyquery 今天我們將迎來我們數據匹配部分的最後一位重量級人物，也是編程語言中

2020-06-10 10:42:02

Python 爬蟲十六式 - 第一式：HTTP協議

HTTP：偉大而又無聞的協議學習一時爽，一直學習一直爽！ Hello，大家好啊，我是Connor，一個從無到有的技術小白。有的人一說什麼是HTTP協議就犯愁，寫東西的時候也沒想過什麼是HTTP協議，只是知道HTTP協議

2020-06-10 10:42:02

24小時熱門文章

最新文章

最新評論文章