scrapy常用設置參考手冊

內置設置參考

以下是所有可用Scrapy設置的列表,按字母順序排列,以及它們的默認值和適用範圍。

範圍(如果可用)顯示設置的使用位置,如果它與任何特定組件相關聯。在那種情況下,將顯示該組件的模塊,通常是擴展,中間件或管道。它還意味着必須啓用該組件才能使設置產生任何效果。

AWS_ACCESS_KEY_ID

默認: None

需要訪問Amazon Web服務的代碼使用的AWS訪問密鑰,例如S3 Feed存儲後端。

AWS_SECRET_ACCESS_KEY

默認: None

需要訪問Amazon Web服務的代碼使用的AWS密鑰,例如S3 Feed存儲後端。

AWS_ENDPOINT_URL

默認: None

用於類似S3的存儲的端點URL,例如Minio或s3.scality。僅支持botocore庫。

AWS_USE_SSL

默認: None

如果要禁用SSL連接以與S3或類似S3的存儲進行通信,請使用此選項。默認情況下,將使用SSL。僅支持botocore庫。

AWS_VERIFY

默認: None

驗證Scrapy與S3或類似S3的存儲之間的SSL連接。默認情況下,將進行SSL驗證。僅支持botocore庫。

AWS_REGION_NAME

默認: None

與AWS客戶端關聯的區域的名稱。僅支持botocore庫。

BOT_NAME

默認: 'scrapybot'

此Scrapy項目實現的機器人名稱(也稱爲項目名稱)。這將默認用於構建User-Agent,也用於日誌記錄。

使用該startproject命令創建項目時,它會自動填充項目名稱。

CONCURRENT_ITEMS

默認: 100

在項目處理器(也稱爲項目管道)中並行處理的最大併發項數(每個響應)。

CONCURRENT_REQUESTS

默認: 16

Scrapy下載程序將執行的最大併發(即同時)請求數。

CONCURRENT_REQUESTS_PER_DOMAIN

默認: 8

將對任何單個域執行的最大併發(即同時)請求數。

另請參閱:AutoThrottle擴展及其 AUTOTHROTTLE_TARGET_CONCURRENCY選項。

CONCURRENT_REQUESTS_PER_IP

默認: 0

將對任何單個IP執行的最大併發(即同時)請求數。如果非零,CONCURRENT_REQUESTS_PER_DOMAIN則忽略該 設置,而使用此設置。換句話說,併發限制將應用於每個IP,而不是每個域。

此設置還會影響DOWNLOAD_DELAY和 AutoThrottle擴展:如果CONCURRENT_REQUESTS_PER_IP 非零,則按 IP而不是每個域強制執行下載延遲。

DEFAULT_ITEM_CLASS

默認: 'scrapy.item.Item'

將用於實例化Scrapy shell中的項的默認類。

DEFAULT_REQUEST_HEADERS

默認:

{
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
}

用於Scrapy HTTP請求的默認標頭。他們居住在 DefaultHeadersMiddleware

DEPTH_LIMIT

默認: 0

範圍: scrapy.spidermiddlewares.depth.DepthMiddleware

允許爲任何站點爬網的最大深度。如果爲零,則不會施加任何限制。

DEPTH_PRIORITY

默認: 0

範圍: scrapy.spidermiddlewares.depth.DepthMiddleware

一個整數,用於根據深度調整請求優先級:

  • 如果爲零(默認),則不從深度進行優先級調整
  • 正值將降低優先級,即稍後將處理更高深度的請求 ; 這在進行廣度優先爬網(BFO)時常用
  • 負值將增加優先級,即更快的深度請求將被更快地處理(DFO)

另請參閱:Scrapy是以廣度優先還是深度優先順序爬行?關於爲BFO或DFO調整Scrapy。

注意

此設置調整優先級以相反的方式相對於其他優先級設置REDIRECT_PRIORITY_ADJUSTRETRY_PRIORITY_ADJUST

DEPTH_STATS_VERBOSE

默認: False

範圍: scrapy.spidermiddlewares.depth.DepthMiddleware

是否收集詳細的深度統計數據。如果啓用此選項,則會在統計信息中收集每個深度的請求數。

DNSCACHE_ENABLED

默認: True

是否啓用DNS內存緩存。

DNSCACHE_SIZE

默認: 10000

DNS內存緩存大小。

DNS_TIMEOUT

默認: 60

在幾秒鐘內處理DNS查詢的超時。支持浮動。

下載

默認: 'scrapy.core.downloader.Downloader'

用於抓取的下載程序。

DOWNLOADER_HTTPCLIENTFACTORY

默認: 'scrapy.core.downloader.webclient.ScrapyHTTPClientFactory'

定義protocol.ClientFactory 用於HTTP / 1.0連接(for HTTP10DownloadHandler)的Twisted 類。

注意

HTTP / 1.0現在很少或使用,因此您可以放心地忽略此設置,除非你使用雙絞線<11.1,如果你真的想使用HTTP / 1.0,並覆蓋DOWNLOAD_HANDLERS_BASEhttp(s)相應的方案,即'scrapy.core.downloader.handlers.http.HTTP10DownloadHandler'

DOWNLOADER_CLIENTCONTEXTFACTORY

默認: 'scrapy.core.downloader.contextfactory.ScrapyClientContextFactory'

表示要使用的ContextFactory的類路徑。

這裏,“ContextFactory”是SSL / TLS上下文的Twisted術語,定義了要使用的TLS / SSL協議版本,是否進行證書驗證,甚至啓用客戶端身份驗證(以及其他各種事情)。

注意

Scrapy默認上下文工廠不執行遠程服務器證書驗證。這通常適用於網頁抓取。

如果確實需要啓用遠程服務器證書驗證,Scrapy還有另一個可以設置的上下文工廠類'scrapy.core.downloader.contextfactory.BrowserLikeContextFactory',它使用平臺的證書來驗證遠程端點。 僅當您使用Twisted> = 14.0時纔可用。

如果您確實使用自定義ContextFactory,請確保它method 在init 接受參數(這是OpenSSL.SSL方法映射 DOWNLOADER_CLIENT_TLS_METHOD)。

DOWNLOADER_CLIENT_TLS_METHOD

默認: 'TLS'

使用此設置可自定義默認HTTP / 1.1下載程序使用的TLS / SSL方法。

此設置必須是以下字符串值之一:

  • 'TLS':映射到OpenSSL TLS_method()(又名SSLv23_method()),它允許協議協商,從平臺支持的最高點開始; 默認,推薦
  • 'TLSv1.0':此值強制HTTPS連接使用TLS 1.0版; 如果你想要Scrapy的行爲<1.1,請設置此項
  • 'TLSv1.1':強制TLS版本1.1
  • 'TLSv1.2':強制TLS版本1.2
  • 'SSLv3':強制SSL版本3(不推薦

注意

我們建議您使用PyOpenSSL> = 0.13和Twisted> = 0.13或更高(如果可以,Twisted> = 14.0)。

DOWNLOADER_MIDDLEWARES

默認:: {}

包含項目中啓用的下載器中間件及其訂單的dict。有關更多信息,請參閱激活下載中間件。

DOWNLOADER_MIDDLEWARES_BASE

默認:

{
    'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
    'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
    'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
    'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
    'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
    'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
    'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
    'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
    'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
    'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
}

包含Scrapy中默認啓用的下載器中間件的dict。低訂單更接近引擎,高訂單更接近下載。您永遠不應該在項目中修改此設置,DOWNLOADER_MIDDLEWARES而是修改 。有關更多信息,請參閱 激活下載中間件。

DOWNLOADER_STATS

默認: True

是否啓用下載程序統計信息收集。

DOWNLOAD_DELAY

默認: 0

在從同一網站下載連續頁面之前,下載程序應等待的時間(以秒爲單位)。這可用於限制爬行速度,以避免過於嚴重地擊中服務器。支持十進制數。例:

DOWNLOAD_DELAY = 0.25    # 250 ms of delay

此設置也受RANDOMIZE_DOWNLOAD_DELAY 設置(默認情況下啓用)的影響。默認情況下,Scrapy不會在請求之間等待一段固定的時間,而是使用0.5 * DOWNLOAD_DELAY和1.5 * 之間的隨機間隔DOWNLOAD_DELAY

CONCURRENT_REQUESTS_PER_IP非零時,每個IP地址而不是每個域強制執行延遲。

您還可以通過設置download_delay spider屬性來更改每個蜘蛛的此設置。

DOWNLOAD_HANDLERS

默認: {}

包含項目中啓用的請求下載程序處理程序的dict。請參閱DOWNLOAD_HANDLERS_BASE格式。

DOWNLOAD_HANDLERS_BASE

默認:

{
    'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler',
    'http': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
    'https': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
    's3': 'scrapy.core.downloader.handlers.s3.S3DownloadHandler',
    'ftp': 'scrapy.core.downloader.handlers.ftp.FTPDownloadHandler',
}

包含Scrapy中默認啓用的請求下載處理程序的dict。您永遠不應該在項目中修改此設置,DOWNLOAD_HANDLERS而是修改 。

您可以通過分配None其URI方案來禁用任何這些下載處理程序DOWNLOAD_HANDLERS。例如,要禁用內置的FTP處理程序(無需替換),請將其放在settings.py

DOWNLOAD_HANDLERS = {
    'ftp': None,
}

DOWNLOAD_TIMEOUT

默認: 180

下載程序在超時之前等待的時間(以秒爲單位)。

注意

可以使用download_timeout spider屬性爲每個spider設置此超時,使用download_timeoutRequest.meta鍵爲每個請求設置此超時。

DOWNLOAD_MAXSIZE

默認值:1073741824(1024MB)

下載程序將下載的最大響應大小(以字節爲單位)。

如果要禁用它,請將其設置爲0。

注意

可以使用download_maxsize spider屬性爲每個蜘蛛設置此大小,使用download_maxsizeRequest.meta鍵爲每個請求設置此大小。

此功能需要Twisted> = 11.1。

DOWNLOAD_WARNSIZE

默認值:33554432(32MB)

下載程序將開始警告的響應大小(以字節爲單位)。

如果要禁用它,請將其設置爲0。

注意

可以使用download_warnsize spider屬性爲每個蜘蛛設置此大小,使用download_warnsizeRequest.meta鍵爲每個請求設置此大小。

此功能需要Twisted> = 11.1。

DOWNLOAD_FAIL_ON_DATALOSS

默認: True

是否在響應中斷時失敗,即聲明 Content-Length與服務器發送的內容不匹配或者分塊響應未正確完成。如果True,這些響應會引發 ResponseFailed([_DataLoss])錯誤。如果False,這些響應被傳遞並且標誌dataloss被添加到響應中,即: 是。'dataloss' inresponse.flagsTrue

(可選)可以使用download_fail_on_datalossRequest.meta鍵爲每個請求設置 False

注意

在從服務器配置錯誤到網絡錯誤再到數據損壞的幾種情況下,可能會發生損壞的響應或數據丟失錯誤。由用戶決定處理損壞的響應是否有意義,因爲它們可能包含部分或不完整的內容。如果RETRY_ENABLED是,True並且此設置設置爲TrueResponseFailed([_DataLoss])則將像往常一樣重試失敗。

DUPEFILTER_CLASS

默認: 'scrapy.dupefilters.RFPDupeFilter'

用於檢測和過濾重複請求的類。

默認(RFPDupeFilter)過濾器使用該scrapy.utils.request.request_fingerprint功能基於請求指紋。爲了更改檢查重複項的方式,您可以子類化RFPDupeFilter並覆蓋其request_fingerprint方法。此方法應接受scrapy Request對象並返回其指紋(字符串)。

您可以通過設置DUPEFILTER_CLASS爲禁用對重複請求的過濾 'scrapy.dupefilters.BaseDupeFilter'。但是要非常小心,因爲你可以進入爬行循環。通常最好將dont_filter參數設置爲不應過濾True的特定參數 Request

DUPEFILTER_DEBUG

默認: False

默認情況下,RFPDupeFilter僅記錄第一個重複請求。設置DUPEFILTER_DEBUGTrue將使其記錄所有重複的請求。

編輯

默認值:( vi在Unix系統上)或IDLE編輯器(在Windows上)

用於使用edit命令編輯蜘蛛的編輯器。此外,如果EDITOR設置了環境變量,則edit 命令將優先於默認設置。

擴展

默認:: {}

包含項目中啓用的擴展名及其訂單的dict。

EXTENSIONS_BASE

默認:

{
    'scrapy.extensions.corestats.CoreStats': 0,
    'scrapy.extensions.telnet.TelnetConsole': 0,
    'scrapy.extensions.memusage.MemoryUsage': 0,
    'scrapy.extensions.memdebug.MemoryDebugger': 0,
    'scrapy.extensions.closespider.CloseSpider': 0,
    'scrapy.extensions.feedexport.FeedExporter': 0,
    'scrapy.extensions.logstats.LogStats': 0,
    'scrapy.extensions.spiderstate.SpiderState': 0,
    'scrapy.extensions.throttle.AutoThrottle': 0,
}

包含Scrapy中默認可用擴展名的dict及其順序。此設置包含所有穩定的內置擴展。請記住,其中一些需要通過設置啓用。

有關詳細信息,請參閱擴展程序用戶指南 和可用擴展程序列表。

FEED_TEMPDIR

Feed Temp dir允許您在使用FTP Feed存儲和 Amazon S3上載之前設置自定義文件夾以保存搜尋器臨時文件。

FTP_PASSIVE_MODE

默認: True

在啓動FTP傳輸時是否使用被動模式。

FTP_PASSWORD

默認: "guest"

該密碼才能使用FTP連接時,有沒有"ftp_password" 在Request元。

注意

解釋RFC 1635,雖然通常使用密碼“guest”或匿名FTP的一個電子郵件地址,但某些FTP服務器明確要求用戶的電子郵件地址,並且不允許使用“訪客”密碼登錄。

FTP_USER

默認: "anonymous"

用戶名使用的FTP連接時,有沒有"ftp_user" 在Request元。

ITEM_PIPELINES

默認: {}

包含要使用的項目管道的dict及其命令。訂單值是任意的,但通常在0-1000範圍內定義它們。在更高訂單之前降低訂單處理。

例:

ITEM_PIPELINES = {
    'mybot.pipelines.validate.ValidateMyItem': 300,
    'mybot.pipelines.validate.StoreMyItem': 800,
}

ITEM_PIPELINES_BASE

默認: {}

包含Scrapy中默認啓用的管道的dict。您永遠不應該在項目中修改此設置,ITEM_PIPELINES而是修改。

LOG_ENABLED

默認: True

是否啓用日誌記錄。

LOG_ENCODING

默認: 'utf-8'

用於記錄的編碼。

LOG_FILE

默認: None

用於記錄輸出的文件名。如果None,將使用標準錯誤。

LOG_FORMAT

默認: '%(asctime)s [%(name)s] %(levelname)s: %(message)s'

用於格式化日誌消息的字符串。有關可用佔位符的完整列表,請參閱Python日誌記錄文檔。

LOG_DATEFORMAT

默認: '%Y-%m-%d %H:%M:%S'

用於格式化日期/時間的字符串,用於擴展%(asctime)s佔位符LOG_FORMAT。有關可用指令的完整列表,請參閱Python datetime文檔。

LOG_LEVEL

默認: 'DEBUG'

記錄的最低級別。可用級別包括:CRITICAL,ERROR,WARNING,INFO,DEBUG。有關更多信息,請參閱記錄。

LOG_STDOUT

默認: False

如果True,您的進程的所有標準輸出(和錯誤)將重定向到日誌。例如,如果print('hello')它將出現在Scrapy日誌中。

LOG_SHORT_NAMES

默認: False

如果True,日誌將只包含根路徑。如果設置爲False 則顯示負責日誌輸出的組件

MEMDEBUG_ENABLED

默認: False

是否啓用內存調試。

MEMDEBUG_NOTIFY

默認: []

啓用內存調試時,如果此設置不爲空,則會將內存報告發送到指定的地址,否則報告將寫入日誌。

例:

MEMDEBUG_NOTIFY = ['[email protected]']

MEMUSAGE_ENABLED

默認: True

範圍: scrapy.extensions.memusage

是否啓用內存使用擴展。此擴展程序跟蹤進程使用的峯值內存(將其寫入統計信息)。它還可以選擇在超出內存限制時關閉Scrapy進程(請參閱參考資料MEMUSAGE_LIMIT_MB),並在發生時通過電子郵件通知(請參閱參考資料MEMUSAGE_NOTIFY_MAIL)。

請參閱內存使用擴展。

MEMUSAGE_LIMIT_MB

默認: 0

範圍: scrapy.extensions.memusage

關閉Scrapy之前允許的最大內存量(以兆字節爲單位)(如果MEMUSAGE_ENABLED爲True)。如果爲零,則不執行檢查。

請參閱內存使用擴展。

MEMUSAGE_CHECK_INTERVAL_SECONDS

版本1.1中的新功能。

默認: 60.0

範圍: scrapy.extensions.memusage

的內存使用擴展 會檢查當前存儲器使用,相對於限制由設置 MEMUSAGE_LIMIT_MBMEMUSAGE_WARNING_MB,以固定時間間隔。

這將設置這些間隔的長度,以秒爲單位。

請參閱內存使用擴展。

MEMUSAGE_NOTIFY_MAIL

默認: False

範圍: scrapy.extensions.memusage

如果已達到內存限制,則通知的電子郵件列表。

例:

MEMUSAGE_NOTIFY_MAIL = ['[email protected]']

請參閱內存使用擴展。

MEMUSAGE_WARNING_MB

默認: 0

範圍: scrapy.extensions.memusage

發送警告電子郵件通知之前允許的最大內存量(以兆字節爲單位)。如果爲零,則不會產生警告。

NEWSPIDER_MODULE

默認: ''

使用該genspider命令模塊在哪裏創建新的蜘蛛。

例:

NEWSPIDER_MODULE = 'mybot.spiders_dev'

RANDOMIZE_DOWNLOAD_DELAY

默認: True

如果啓用,Scrapy將在從同一網站獲取請求時等待一段隨機時間(介於0.5 * DOWNLOAD_DELAY和1.5 *之間DOWNLOAD_DELAY)。

這種隨機化降低了爬行程序被分析請求的站點檢測(並隨後被阻止)的機會,這些站點在其請求之間的時間內尋找統計上顯着的相似性。

隨機化策略與wget --random-wait選項使用的相同。

如果DOWNLOAD_DELAY爲零(默認),則此選項無效。

REACTOR_THREADPOOL_MAXSIZE

默認: 10

Twisted Reactor線程池大小的最大限制。這是各種Scrapy組件使用的常見多用途線程池。螺紋DNS解析器,BlockingFeedStorage,S3FilesStore僅舉幾例。如果遇到阻塞IO不足的問題,請增加此值。

REDIRECT_MAX_TIMES

默認: 20

定義可以重定向請求的最大次數。在此最大值之後,請求的響應將按原樣返回。我們使用Firefox默認值來執行相同的任務。

REDIRECT_PRIORITY_ADJUST

默認: +2

範圍: scrapy.downloadermiddlewares.redirect.RedirectMiddleware

相對於原始請求調整重定向請求優先級:

  • 正優先級調整(默認)意味着更高的優先級。
  • 負優先級調整意味着較低的優先級。

RETRY_PRIORITY_ADJUST

默認: -1

範圍: scrapy.downloadermiddlewares.retry.RetryMiddleware

相對於原始請求調整重試請求優先級:

  • 正優先級調整意味着更高的優先級。
  • 負優先級調整(默認)表示優先級較低。

ROBOTSTXT_OBEY

默認: False

範圍: scrapy.downloadermiddlewares.robotstxt

如果啓用,Scrapy將尊重robots.txt政策。有關更多信息,請參閱 RobotsTxtMiddleware。

注意

雖然默認值是False出於歷史原因,但默認情況下會在命令生成的settings.py文件中啓用此選項。scrapy startproject

調度器

默認: 'scrapy.core.scheduler.Scheduler'

用於爬網的調度程序。

SCHEDULER_DEBUG

默認: False

設置爲True將記錄有關請求調度程序的調試信息。如果請求無法序列化到磁盤,則此當前日誌(僅一次)。Stats counter(scheduler/unserializable)跟蹤發生這種情況的次數。

日誌中的示例條目:

1956-01-31 00:00:00+0800 [scrapy.core.scheduler] ERROR: Unable to serialize request:
<GET http://example.com> - reason: cannot serialize <Request at 0x9a7c7ec>
(type Request)> - no more unserializable requests will be logged
(see 'scheduler/unserializable' stats counter)

SCHEDULER_DISK_QUEUE

默認: 'scrapy.squeues.PickleLifoDiskQueue'

調度程序將使用的磁盤隊列類型。其他可用的類型有scrapy.squeues.PickleFifoDiskQueuescrapy.squeues.MarshalFifoDiskQueuescrapy.squeues.MarshalLifoDiskQueue

SCHEDULER_MEMORY_QUEUE

默認: 'scrapy.squeues.LifoMemoryQueue'

調度程序使用的內存中隊列的類型。其他可用的類型是: scrapy.squeues.FifoMemoryQueue

SCHEDULER_PRIORITY_QUEUE

默認: 'queuelib.PriorityQueue'

調度程序使用的優先級隊列的類型。

SPIDER_CONTRACTS

默認:: {}

包含項目中啓用的蜘蛛合同的dict,用於測試蜘蛛。有關更多信息,請參閱蜘蛛合同。

SPIDER_CONTRACTS_BASE

默認:

{
    'scrapy.contracts.default.UrlContract' : 1,
    'scrapy.contracts.default.ReturnsContract': 2,
    'scrapy.contracts.default.ScrapesContract': 3,
}

包含scrapy默認情況下啓用的scrapy合約的dict。您永遠不應該在項目中修改此設置,SPIDER_CONTRACTS 而是修改。有關更多信息,請參閱蜘蛛合同。

您可以通過分配None其類路徑來禁用任何這些合同SPIDER_CONTRACTS。例如,要禁用內置功能ScrapesContract,請將其放入settings.py

SPIDER_CONTRACTS = {
    'scrapy.contracts.default.ScrapesContract': None,
}

SPIDER_LOADER_CLASS

默認: 'scrapy.spiderloader.SpiderLoader'

將用於加載蜘蛛的類,必須實現 SpiderLoader API。

SPIDER_LOADER_WARN_ONLY

版本1.3.3中的新功能。

默認: False

默認情況下,當scrapy嘗試從中導入蜘蛛類時SPIDER_MODULES,如果有任何ImportError異常,它將大聲失敗。但您可以選擇將此異常靜音並通過設置將其轉換爲簡單警告。SPIDER_LOADER_WARN_ONLY = True

注意

有些scrapy命令使用此設置運行True 已經(即他們只會發出警告並不會失敗),因爲他們實際上並不需要加載蜘蛛類的工作: , , ,。scrapy runspiderscrapy settingsscrapy``startprojectscrapy version

SPIDER_MIDDLEWARES

默認:: {}

包含項目中啓用的蜘蛛中間件及其命令的dict。有關更多信息,請參閱激活蜘蛛中間件。

SPIDER_MIDDLEWARES_BASE

默認:

{
    'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50,
    'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500,
    'scrapy.spidermiddlewares.referer.RefererMiddleware': 700,
    'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800,
    'scrapy.spidermiddlewares.depth.DepthMiddleware': 900,
}

包含Scrapy中默認啓用的蜘蛛中間件及其命令的dict。低訂單更接近引擎,高訂單更接近蜘蛛。有關更多信息,請參閱激活蜘蛛中間件。

SPIDER_MODULES

默認: []

Scrapy將尋找蜘蛛的模塊列表。

例:

SPIDER_MODULES = ['mybot.spiders_prod', 'mybot.spiders_dev']

STATS_CLASS

默認: 'scrapy.statscollectors.MemoryStatsCollector'

用於收集統計信息的類,必須實現 Stats Collector API。

STATS_DUMP

默認: True

蜘蛛完成後,將Scrapy統計數據(轉到Scrapy日誌)轉儲。

有關詳細信息,請參閱:統計信息收集。

STATSMAILER_RCPTS

默認值:( []空列表)

在蜘蛛完成刮擦後發送Scrapy統計數據。有關詳情StatsMailer,請參閱 。

TELNETCONSOLE_ENABLED

默認: True

一個布爾值,指定是否 啓用telnet控制檯(如果其擴展名也已啓用)。

TELNETCONSOLE_PORT

默認: [6023, 6073]

用於telnet控制檯的端口範圍。如果設置爲None0,則使用動態分配的端口。有關詳細信息,請參閱 Telnet控制檯。

TEMPLATES_DIR

默認值:templatesdir在scrapy模塊中

使用startproject命令創建新項目時使用命令查找模板的目錄以及使用命令創建 新蜘蛛的目錄genspider 。

項目名稱不得與project子目錄中的自定義文件或目錄的名稱衝突。

URLLENGTH_LIMIT

默認: 2083

範圍: spidermiddlewares.urllength

允許抓取的網址的最大網址長度。有關此設置的默認值的詳細信息,請參閱:https://http://boutell.com/newfaq/misc/urllength.html

USER_AGENT

默認: "Scrapy/VERSION (+https://scrapy.org)"

爬網時使用的默認User-Agent,除非被覆蓋。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章