scrapy定時啓動多個爬蟲

最近項目需要爬取倆個不同網站的新聞內容,但是又存在同一個表,
所以就需要用到倆個Spider 指向不同的domain
這裏寫圖片描述
但是 對於新手的我來說 只會通過

scrapy crawl human -o human.json

來啓動Spider,所以每次爬取都分倆次運行,分別運行human 和nbgov

於是嘗試了嘗試下面的這種方式:

from scrapy import cmdline
cmdline.execute("scrapy crawl human -o human.json".split())
cmdline.execute("scrapy crawl nbgov -o nbgov.json".split())

但是 發現 它只會運行第一條 cmdline,當第一條運行結束後 第二條並不會運行

於是又花了一點時間在網上找
偶然發現一個一個文章 關於定時 爬取的

import time
import os
while True:
    print('the first spider')
    os.system("scrapy crawl human -o human.json")
    print('the second spider')
    os.system("scrapy crawl nbgov -o nbgov.json")
    time.sleep(86400)# 24hours

於是發現 這樣是可以完美 定時啓動 多個爬蟲

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章