python中定時執行爬蟲文件方法

原創

这孩子谁懂哈

2020-06-30 11:30

我們爬取數據的時候，經常會希望定時運行爬蟲，一般在凌晨的時候執行，那樣掛服務器上就會減輕很大的負荷，所以我們就需要定時的任務，本文使用了scrapy框架，然後定時執行爬蟲代碼的方法。

聲明：此方法不一定是最好的方法，但是肯定是能達到效果的方法。

網上有很多的代碼介紹，最多的就是下面的方法：

import time
from scrapy.cmdline import execute
import sys
import os
import datetime

def doSth():
    execute(['scrapy','crawl','lcp'])

# 想幾點更新,定時到幾點
def time_ti(h=20, m=24):
    while True:
        now = datetime.datetime.now()
        # print(now.hour, now.minute)
        if now.hour == h and now.minute == m:
            doSth()
        # 每隔60秒檢測一次
        time.sleep(60)


doSth()

但是上面的方法執行一次就結束了，原因可能是cmdline是scrapy框架自帶的，開啓的是一個主線程，任務完成主線程撤銷，所以就執行一次就結束了，完全達不到我們的要求。

所以下面的方法是最簡單的方法。

import time
import sys
import os
import datetime


def Dingshi():
    while True:
        os.system("scrapy crawl lcp")#lcp是我們爬蟲的代碼名字哦
        time.sleep(60) 

Dingshi()

我們直接就是在Linux服務器上執行一次這個Dingshi()的方法就可以了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

在scrapy框架中判斷數據庫中是否存在某個表來實現表中數據全量更新

現在有這麼個需求：就是我有一個爬蟲腳本，我想把爬取到的數據存入到mysql數據庫裏去（這個是比較簡單的），同時我還想定時執行這個腳本文件，然後讓用戶能及時看到最新的數據，所以就出現一個問題就是如何保證數據庫裏的數據是最新的呢？這裏使用

这孩子谁懂哈

2020-06-30 10:47:00

Python爬蟲實例（三）：錯誤重試，超時處理

錯誤重試錯誤重試用到的方法之一是：@retry()裝飾器裝飾器實際是一個python函數，它的作用就是爲被裝飾的函數（或對象）進行裝飾、包裝，可以讓被裝飾的函數（或對象）在不需要做任何代碼改動的情況下增加一些額外的功能，即被裝飾函數（

2020-06-12 20:27:15

Python爬蟲實例（六）：爬取XX網站圖書的xml格式數據（xpath應用）

本文結合之前的練習，完成項目目標：爬取XX網站的經濟學圖書xml格式數據。項目思路發送get請求獲取響應，使用xpath方法和etree.HTML方法提取想要的內容，保存至本地html文件；再從本地html文件讀取出來進行處理

2020-06-12 20:27:15

Python爬蟲實例（五）：爬取XX網站電視劇 json格式數據

本文結合之前的練習，完成項目目標：爬取XX網站的電視劇json數據。項目思路首先發送cookie請求爬取登錄後的內容（具體方法見Python爬蟲之個人筆記（四）：發送Cookie請求），發送請求時加入超時錯誤重試功能（具體方法

2020-06-12 20:27:15

Python爬蟲實例（四）：發送Cookie請求

利用get或post發送cookie請求，都可以爬取網絡上的數據。 cookie 是指某些網站爲了辨別用戶身份、進行 session 跟蹤而儲存在用戶本地終端上的數據（通常經過加密）。方法一：headers參數中直接攜帶cookie

2020-06-12 20:27:15

Python爬蟲實例（二）：requests模塊應用，發送get/post請求，獲取響應

安裝requests模塊使用前先安裝requests模塊：pipenv install requests（注意後面有個s） pipenv install requests 發送get請求，獲取響應 import requests

2020-06-12 20:27:15

Python爬蟲實例（一）：URL地址和HTTP協議

所需工具：Chrome瀏覽器（更多工具——>開發者工具——>Network /// 或在Chrome中右鍵點擊檢查，點擊Network）爬蟲的一般定義：模擬用戶在客戶端或瀏覽器發送網絡請求，並按規則提取數據的程序常見的爬蟲應用：

2020-06-12 20:27:15

可運行的最新的使用scrapy框架爬取鏈家租房數據

看了一圈網上很多爬取鏈家數據的爬蟲，但是由於鏈家已經把網頁結構換掉了，所以原來的網上代碼已經不能夠使用，剛寫了一個最新的爬蟲，可以獲取租房信息。工具： python3.6 scrapy 1.6.0 框架 vscode 編輯器基礎知

这孩子谁懂哈

2020-06-09 08:40:00

爬蟲post請求時候參數出現A JSONAray text must start with '[' at character 1 of ...時候解決辦法

这孩子谁懂哈

2020-03-01 10:12:42

在scrapy框架中判斷數據庫中是否存在某個表來實現表中數據全量更新

現在有這麼個需求：就是我有一個爬蟲腳本，我想把爬取到的數據存入到mysql數據庫裏去（這個是比較簡單的），同時我還想定時執行這個腳本文件，然後讓用戶能及時看到最新的數據，所以就出現一個問題就是如何保證數據庫裏的數據是最新的呢？這裏使用

这孩子谁懂哈

2020-06-30 10:47:00

Python爬蟲實例（三）：錯誤重試，超時處理

錯誤重試錯誤重試用到的方法之一是：@retry()裝飾器裝飾器實際是一個python函數，它的作用就是爲被裝飾的函數（或對象）進行裝飾、包裝，可以讓被裝飾的函數（或對象）在不需要做任何代碼改動的情況下增加一些額外的功能，即被裝飾函數（

2020-06-12 20:27:15

Python爬蟲實例（六）：爬取XX網站圖書的xml格式數據（xpath應用）

本文結合之前的練習，完成項目目標：爬取XX網站的經濟學圖書xml格式數據。項目思路發送get請求獲取響應，使用xpath方法和etree.HTML方法提取想要的內容，保存至本地html文件；再從本地html文件讀取出來進行處理

2020-06-12 20:27:15

Python爬蟲實例（五）：爬取XX網站電視劇 json格式數據

本文結合之前的練習，完成項目目標：爬取XX網站的電視劇json數據。項目思路首先發送cookie請求爬取登錄後的內容（具體方法見Python爬蟲之個人筆記（四）：發送Cookie請求），發送請求時加入超時錯誤重試功能（具體方法

2020-06-12 20:27:15

Python爬蟲實例（四）：發送Cookie請求

利用get或post發送cookie請求，都可以爬取網絡上的數據。 cookie 是指某些網站爲了辨別用戶身份、進行 session 跟蹤而儲存在用戶本地終端上的數據（通常經過加密）。方法一：headers參數中直接攜帶cookie

2020-06-12 20:27:15

Python爬蟲實例（二）：requests模塊應用，發送get/post請求，獲取響應

安裝requests模塊使用前先安裝requests模塊：pipenv install requests（注意後面有個s） pipenv install requests 發送get請求，獲取響應 import requests

2020-06-12 20:27:15

24小時熱門文章

最新文章

最新評論文章