最近項目需要爬取倆個不同網站的新聞內容,但是又存在同一個表,
所以就需要用到倆個Spider 指向不同的domain
但是 對於新手的我來說 只會通過
scrapy crawl human -o human.json
來啓動Spider,所以每次爬取都分倆次運行,分別運行human 和nbgov
於是嘗試了嘗試下面的這種方式:
from scrapy import cmdline
cmdline.execute("scrapy crawl human -o human.json".split())
cmdline.execute("scrapy crawl nbgov -o nbgov.json".split())
但是 發現 它只會運行第一條 cmdline,當第一條運行結束後 第二條並不會運行
於是又花了一點時間在網上找
偶然發現一個一個文章 關於定時 爬取的
import time
import os
while True:
print('the first spider')
os.system("scrapy crawl human -o human.json")
print('the second spider')
os.system("scrapy crawl nbgov -o nbgov.json")
time.sleep(86400)# 24hours
於是發現 這樣是可以完美 定時啓動 多個爬蟲