scrapy常用設置參考手冊

內置設置參考

以下是所有可用Scrapy設置的列表，按字母順序排列，以及它們的默認值和適用範圍。

範圍（如果可用）顯示設置的使用位置，如果它與任何特定組件相關聯。在那種情況下，將顯示該組件的模塊，通常是擴展，中間件或管道。它還意味着必須啓用該組件才能使設置產生任何效果。

AWS_ACCESS_KEY_ID

默認： None

需要訪問Amazon Web服務的代碼使用的AWS訪問密鑰，例如S3 Feed存儲後端。

AWS_SECRET_ACCESS_KEY

默認： None

需要訪問Amazon Web服務的代碼使用的AWS密鑰，例如S3 Feed存儲後端。

AWS_ENDPOINT_URL

默認： None

用於類似S3的存儲的端點URL，例如Minio或s3.scality。僅支持botocore庫。

AWS_USE_SSL

默認： None

如果要禁用SSL連接以與S3或類似S3的存儲進行通信，請使用此選項。默認情況下，將使用SSL。僅支持botocore庫。

AWS_VERIFY

默認： None

驗證Scrapy與S3或類似S3的存儲之間的SSL連接。默認情況下，將進行SSL驗證。僅支持botocore庫。

AWS_REGION_NAME

默認： None

與AWS客戶端關聯的區域的名稱。僅支持botocore庫。

BOT_NAME

默認： 'scrapybot'

此Scrapy項目實現的機器人名稱（也稱爲項目名稱）。這將默認用於構建User-Agent，也用於日誌記錄。

使用該startproject命令創建項目時，它會自動填充項目名稱。

CONCURRENT_ITEMS

默認： 100

在項目處理器（也稱爲項目管道）中並行處理的最大併發項數（每個響應）。

CONCURRENT_REQUESTS

默認： 16

Scrapy下載程序將執行的最大併發（即同時）請求數。

CONCURRENT_REQUESTS_PER_DOMAIN

默認： 8

將對任何單個域執行的最大併發（即同時）請求數。

另請參閱：AutoThrottle擴展及其 AUTOTHROTTLE_TARGET_CONCURRENCY選項。

CONCURRENT_REQUESTS_PER_IP

默認： 0

將對任何單個IP執行的最大併發（即同時）請求數。如果非零，CONCURRENT_REQUESTS_PER_DOMAIN則忽略該設置，而使用此設置。換句話說，併發限制將應用於每個IP，而不是每個域。

此設置還會影響DOWNLOAD_DELAY和 AutoThrottle擴展：如果CONCURRENT_REQUESTS_PER_IP 非零，則按 IP而不是每個域強制執行下載延遲。

DEFAULT_ITEM_CLASS

默認： 'scrapy.item.Item'

將用於實例化Scrapy shell中的項的默認類。

DEFAULT_REQUEST_HEADERS

默認：

{
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
}

用於Scrapy HTTP請求的默認標頭。他們居住在 DefaultHeadersMiddleware。

DEPTH_LIMIT

默認： 0

範圍： scrapy.spidermiddlewares.depth.DepthMiddleware

允許爲任何站點爬網的最大深度。如果爲零，則不會施加任何限制。

DEPTH_PRIORITY

默認： 0

範圍： scrapy.spidermiddlewares.depth.DepthMiddleware

一個整數，用於根據深度調整請求優先級：

如果爲零（默認），則不從深度進行優先級調整
正值將降低優先級，即稍後將處理更高深度的請求 ; 這在進行廣度優先爬網（BFO）時常用
負值將增加優先級，即更快的深度請求將被更快地處理（DFO）

另請參閱：Scrapy是以廣度優先還是深度優先順序爬行？關於爲BFO或DFO調整Scrapy。

注意

此設置調整優先級以相反的方式相對於其他優先級設置REDIRECT_PRIORITY_ADJUST和RETRY_PRIORITY_ADJUST。

DEPTH_STATS_VERBOSE

默認： False

範圍： scrapy.spidermiddlewares.depth.DepthMiddleware

是否收集詳細的深度統計數據。如果啓用此選項，則會在統計信息中收集每個深度的請求數。

DNSCACHE_ENABLED

默認： True

是否啓用DNS內存緩存。

DNSCACHE_SIZE

默認： 10000

DNS內存緩存大小。

DNS_TIMEOUT

默認： 60

在幾秒鐘內處理DNS查詢的超時。支持浮動。

下載

默認： 'scrapy.core.downloader.Downloader'

用於抓取的下載程序。

DOWNLOADER_HTTPCLIENTFACTORY

默認： 'scrapy.core.downloader.webclient.ScrapyHTTPClientFactory'

定義protocol.ClientFactory 用於HTTP / 1.0連接（for HTTP10DownloadHandler）的Twisted 類。

注意

HTTP / 1.0現在很少或使用，因此您可以放心地忽略此設置，除非你使用雙絞線<11.1，如果你真的想使用HTTP / 1.0，並覆蓋DOWNLOAD_HANDLERS_BASE了http(s)相應的方案，即'scrapy.core.downloader.handlers.http.HTTP10DownloadHandler'。

DOWNLOADER_CLIENTCONTEXTFACTORY

默認： 'scrapy.core.downloader.contextfactory.ScrapyClientContextFactory'

表示要使用的ContextFactory的類路徑。

這裏，“ContextFactory”是SSL / TLS上下文的Twisted術語，定義了要使用的TLS / SSL協議版本，是否進行證書驗證，甚至啓用客戶端身份驗證（以及其他各種事情）。

注意

Scrapy默認上下文工廠不執行遠程服務器證書驗證。這通常適用於網頁抓取。

如果確實需要啓用遠程服務器證書驗證，Scrapy還有另一個可以設置的上下文工廠類'scrapy.core.downloader.contextfactory.BrowserLikeContextFactory'，它使用平臺的證書來驗證遠程端點。僅當您使用Twisted> = 14.0時纔可用。

如果您確實使用自定義ContextFactory，請確保它method 在init 接受參數（這是OpenSSL.SSL方法映射 DOWNLOADER_CLIENT_TLS_METHOD）。

DOWNLOADER_CLIENT_TLS_METHOD

默認： 'TLS'

使用此設置可自定義默認HTTP / 1.1下載程序使用的TLS / SSL方法。

此設置必須是以下字符串值之一：

'TLS'：映射到OpenSSL TLS_method()（又名SSLv23_method()），它允許協議協商，從平臺支持的最高點開始; 默認，推薦
'TLSv1.0'：此值強制HTTPS連接使用TLS 1.0版; 如果你想要Scrapy的行爲<1.1，請設置此項
'TLSv1.1'：強制TLS版本1.1
'TLSv1.2'：強制TLS版本1.2
'SSLv3'：強制SSL版本3（不推薦）

注意

我們建議您使用PyOpenSSL> = 0.13和Twisted> = 0.13或更高（如果可以，Twisted> = 14.0）。

DOWNLOADER_MIDDLEWARES

默認：： {}

包含項目中啓用的下載器中間件及其訂單的dict。有關更多信息，請參閱激活下載中間件。

DOWNLOADER_MIDDLEWARES_BASE

默認：

{
    'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
    'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
    'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
    'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
    'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
    'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
    'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
    'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
    'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
    'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
}

包含Scrapy中默認啓用的下載器中間件的dict。低訂單更接近引擎，高訂單更接近下載。您永遠不應該在項目中修改此設置，DOWNLOADER_MIDDLEWARES而是修改。有關更多信息，請參閱激活下載中間件。

DOWNLOADER_STATS

默認： True

是否啓用下載程序統計信息收集。

DOWNLOAD_DELAY

默認： 0

在從同一網站下載連續頁面之前，下載程序應等待的時間（以秒爲單位）。這可用於限制爬行速度，以避免過於嚴重地擊中服務器。支持十進制數。例：

DOWNLOAD_DELAY = 0.25    # 250 ms of delay

此設置也受RANDOMIZE_DOWNLOAD_DELAY 設置（默認情況下啓用）的影響。默認情況下，Scrapy不會在請求之間等待一段固定的時間，而是使用0.5 * DOWNLOAD_DELAY和1.5 * 之間的隨機間隔DOWNLOAD_DELAY。

當CONCURRENT_REQUESTS_PER_IP非零時，每個IP地址而不是每個域強制執行延遲。

您還可以通過設置download_delay spider屬性來更改每個蜘蛛的此設置。

DOWNLOAD_HANDLERS

默認： {}

包含項目中啓用的請求下載程序處理程序的dict。請參閱DOWNLOAD_HANDLERS_BASE格式。

DOWNLOAD_HANDLERS_BASE

默認：

{
    'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler',
    'http': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
    'https': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
    's3': 'scrapy.core.downloader.handlers.s3.S3DownloadHandler',
    'ftp': 'scrapy.core.downloader.handlers.ftp.FTPDownloadHandler',
}

包含Scrapy中默認啓用的請求下載處理程序的dict。您永遠不應該在項目中修改此設置，DOWNLOAD_HANDLERS而是修改。

您可以通過分配None其URI方案來禁用任何這些下載處理程序DOWNLOAD_HANDLERS。例如，要禁用內置的FTP處理程序（無需替換），請將其放在settings.py：

DOWNLOAD_HANDLERS = {
    'ftp': None,
}

DOWNLOAD_TIMEOUT

默認： 180

下載程序在超時之前等待的時間（以秒爲單位）。

注意

可以使用download_timeout spider屬性爲每個spider設置此超時，使用download_timeoutRequest.meta鍵爲每個請求設置此超時。

DOWNLOAD_MAXSIZE

默認值：1073741824（1024MB）

下載程序將下載的最大響應大小（以字節爲單位）。

如果要禁用它，請將其設置爲0。

注意

可以使用download_maxsize spider屬性爲每個蜘蛛設置此大小，使用download_maxsizeRequest.meta鍵爲每個請求設置此大小。

此功能需要Twisted> = 11.1。

DOWNLOAD_WARNSIZE

默認值：33554432（32MB）

下載程序將開始警告的響應大小（以字節爲單位）。

如果要禁用它，請將其設置爲0。

注意

可以使用download_warnsize spider屬性爲每個蜘蛛設置此大小，使用download_warnsizeRequest.meta鍵爲每個請求設置此大小。

此功能需要Twisted> = 11.1。

DOWNLOAD_FAIL_ON_DATALOSS

默認： True

是否在響應中斷時失敗，即聲明 Content-Length與服務器發送的內容不匹配或者分塊響應未正確完成。如果True，這些響應會引發 ResponseFailed([_DataLoss])錯誤。如果False，這些響應被傳遞並且標誌dataloss被添加到響應中，即：是。'dataloss' inresponse.flagsTrue

（可選）可以使用download_fail_on_datalossRequest.meta鍵爲每個請求設置 False。

注意

在從服務器配置錯誤到網絡錯誤再到數據損壞的幾種情況下，可能會發生損壞的響應或數據丟失錯誤。由用戶決定處理損壞的響應是否有意義，因爲它們可能包含部分或不完整的內容。如果RETRY_ENABLED是，True並且此設置設置爲True，ResponseFailed([_DataLoss])則將像往常一樣重試失敗。

DUPEFILTER_CLASS

默認： 'scrapy.dupefilters.RFPDupeFilter'

用於檢測和過濾重複請求的類。

默認（RFPDupeFilter）過濾器使用該scrapy.utils.request.request_fingerprint功能基於請求指紋。爲了更改檢查重複項的方式，您可以子類化RFPDupeFilter並覆蓋其request_fingerprint方法。此方法應接受scrapy Request對象並返回其指紋（字符串）。

您可以通過設置DUPEFILTER_CLASS爲禁用對重複請求的過濾 'scrapy.dupefilters.BaseDupeFilter'。但是要非常小心，因爲你可以進入爬行循環。通常最好將dont_filter參數設置爲不應過濾True的特定參數 Request。

DUPEFILTER_DEBUG

默認： False

默認情況下，RFPDupeFilter僅記錄第一個重複請求。設置DUPEFILTER_DEBUG爲True將使其記錄所有重複的請求。

編輯

默認值:( vi在Unix系統上）或IDLE編輯器（在Windows上）

用於使用edit命令編輯蜘蛛的編輯器。此外，如果EDITOR設置了環境變量，則edit 命令將優先於默認設置。

擴展

默認：： {}

包含項目中啓用的擴展名及其訂單的dict。

EXTENSIONS_BASE

默認：

{
    'scrapy.extensions.corestats.CoreStats': 0,
    'scrapy.extensions.telnet.TelnetConsole': 0,
    'scrapy.extensions.memusage.MemoryUsage': 0,
    'scrapy.extensions.memdebug.MemoryDebugger': 0,
    'scrapy.extensions.closespider.CloseSpider': 0,
    'scrapy.extensions.feedexport.FeedExporter': 0,
    'scrapy.extensions.logstats.LogStats': 0,
    'scrapy.extensions.spiderstate.SpiderState': 0,
    'scrapy.extensions.throttle.AutoThrottle': 0,
}

包含Scrapy中默認可用擴展名的dict及其順序。此設置包含所有穩定的內置擴展。請記住，其中一些需要通過設置啓用。

有關詳細信息，請參閱擴展程序用戶指南和可用擴展程序列表。

FEED_TEMPDIR

Feed Temp dir允許您在使用FTP Feed存儲和 Amazon S3上載之前設置自定義文件夾以保存搜尋器臨時文件。

FTP_PASSIVE_MODE

默認： True

在啓動FTP傳輸時是否使用被動模式。

FTP_PASSWORD

默認： "guest"

該密碼才能使用FTP連接時，有沒有"ftp_password" 在Request元。

注意

解釋RFC 1635，雖然通常使用密碼“guest”或匿名FTP的一個電子郵件地址，但某些FTP服務器明確要求用戶的電子郵件地址，並且不允許使用“訪客”密碼登錄。

FTP_USER

默認： "anonymous"

用戶名使用的FTP連接時，有沒有"ftp_user" 在Request元。

ITEM_PIPELINES

默認： {}

包含要使用的項目管道的dict及其命令。訂單值是任意的，但通常在0-1000範圍內定義它們。在更高訂單之前降低訂單處理。

例：

ITEM_PIPELINES = {
    'mybot.pipelines.validate.ValidateMyItem': 300,
    'mybot.pipelines.validate.StoreMyItem': 800,
}

ITEM_PIPELINES_BASE

默認： {}

包含Scrapy中默認啓用的管道的dict。您永遠不應該在項目中修改此設置，ITEM_PIPELINES而是修改。

LOG_ENABLED

默認： True

是否啓用日誌記錄。

LOG_ENCODING

默認： 'utf-8'

用於記錄的編碼。

LOG_FILE

默認： None

用於記錄輸出的文件名。如果None，將使用標準錯誤。

LOG_FORMAT

默認： '%(asctime)s [%(name)s] %(levelname)s: %(message)s'

用於格式化日誌消息的字符串。有關可用佔位符的完整列表，請參閱Python日誌記錄文檔。

LOG_DATEFORMAT

默認： '%Y-%m-%d %H:%M:%S'

用於格式化日期/時間的字符串，用於擴展%(asctime)s佔位符LOG_FORMAT。有關可用指令的完整列表，請參閱Python datetime文檔。

LOG_LEVEL

默認： 'DEBUG'

記錄的最低級別。可用級別包括：CRITICAL，ERROR，WARNING，INFO，DEBUG。有關更多信息，請參閱記錄。

LOG_STDOUT

默認： False

如果True，您的進程的所有標準輸出（和錯誤）將重定向到日誌。例如，如果print('hello')它將出現在Scrapy日誌中。

LOG_SHORT_NAMES

默認： False

如果True，日誌將只包含根路徑。如果設置爲False 則顯示負責日誌輸出的組件

MEMDEBUG_ENABLED

默認： False

是否啓用內存調試。

MEMDEBUG_NOTIFY

默認： []

啓用內存調試時，如果此設置不爲空，則會將內存報告發送到指定的地址，否則報告將寫入日誌。

例：

MEMDEBUG_NOTIFY = ['[email protected]']

MEMUSAGE_ENABLED

默認： True

範圍： scrapy.extensions.memusage

是否啓用內存使用擴展。此擴展程序跟蹤進程使用的峯值內存（將其寫入統計信息）。它還可以選擇在超出內存限制時關閉Scrapy進程（請參閱參考資料MEMUSAGE_LIMIT_MB），並在發生時通過電子郵件通知（請參閱參考資料MEMUSAGE_NOTIFY_MAIL）。

請參閱內存使用擴展。

MEMUSAGE_LIMIT_MB

默認： 0

範圍： scrapy.extensions.memusage

關閉Scrapy之前允許的最大內存量（以兆字節爲單位）（如果MEMUSAGE_ENABLED爲True）。如果爲零，則不執行檢查。

請參閱內存使用擴展。

MEMUSAGE_CHECK_INTERVAL_SECONDS

版本1.1中的新功能。

默認： 60.0

範圍： scrapy.extensions.memusage

的內存使用擴展會檢查當前存儲器使用，相對於限制由設置 MEMUSAGE_LIMIT_MB和MEMUSAGE_WARNING_MB，以固定時間間隔。

這將設置這些間隔的長度，以秒爲單位。

請參閱內存使用擴展。

MEMUSAGE_NOTIFY_MAIL

默認： False

範圍： scrapy.extensions.memusage

如果已達到內存限制，則通知的電子郵件列表。

例：

MEMUSAGE_NOTIFY_MAIL = ['[email protected]']

請參閱內存使用擴展。

MEMUSAGE_WARNING_MB

默認： 0

範圍： scrapy.extensions.memusage

發送警告電子郵件通知之前允許的最大內存量（以兆字節爲單位）。如果爲零，則不會產生警告。

NEWSPIDER_MODULE

默認： ''

使用該genspider命令模塊在哪裏創建新的蜘蛛。

例：

NEWSPIDER_MODULE = 'mybot.spiders_dev'

RANDOMIZE_DOWNLOAD_DELAY

默認： True

如果啓用，Scrapy將在從同一網站獲取請求時等待一段隨機時間（介於0.5 * DOWNLOAD_DELAY和1.5 *之間DOWNLOAD_DELAY）。

這種隨機化降低了爬行程序被分析請求的站點檢測（並隨後被阻止）的機會，這些站點在其請求之間的時間內尋找統計上顯着的相似性。

隨機化策略與wget --random-wait選項使用的相同。

如果DOWNLOAD_DELAY爲零（默認），則此選項無效。

REACTOR_THREADPOOL_MAXSIZE

默認： 10

Twisted Reactor線程池大小的最大限制。這是各種Scrapy組件使用的常見多用途線程池。螺紋DNS解析器，BlockingFeedStorage，S3FilesStore僅舉幾例。如果遇到阻塞IO不足的問題，請增加此值。

REDIRECT_MAX_TIMES

默認： 20

定義可以重定向請求的最大次數。在此最大值之後，請求的響應將按原樣返回。我們使用Firefox默認值來執行相同的任務。

REDIRECT_PRIORITY_ADJUST

默認： +2

範圍： scrapy.downloadermiddlewares.redirect.RedirectMiddleware

相對於原始請求調整重定向請求優先級：

正優先級調整（默認）意味着更高的優先級。
負優先級調整意味着較低的優先級。

RETRY_PRIORITY_ADJUST

默認： -1

範圍： scrapy.downloadermiddlewares.retry.RetryMiddleware

相對於原始請求調整重試請求優先級：

正優先級調整意味着更高的優先級。
負優先級調整（默認）表示優先級較低。

ROBOTSTXT_OBEY

默認： False

範圍： scrapy.downloadermiddlewares.robotstxt

如果啓用，Scrapy將尊重robots.txt政策。有關更多信息，請參閱 RobotsTxtMiddleware。

注意

雖然默認值是False出於歷史原因，但默認情況下會在命令生成的settings.py文件中啓用此選項。scrapy startproject

調度器

默認： 'scrapy.core.scheduler.Scheduler'

用於爬網的調度程序。

SCHEDULER_DEBUG

默認： False

設置爲True將記錄有關請求調度程序的調試信息。如果請求無法序列化到磁盤，則此當前日誌（僅一次）。Stats counter（scheduler/unserializable）跟蹤發生這種情況的次數。

日誌中的示例條目：

1956-01-31 00:00:00+0800 [scrapy.core.scheduler] ERROR: Unable to serialize request:
<GET http://example.com> - reason: cannot serialize <Request at 0x9a7c7ec>
(type Request)> - no more unserializable requests will be logged
(see 'scheduler/unserializable' stats counter)

SCHEDULER_DISK_QUEUE

默認： 'scrapy.squeues.PickleLifoDiskQueue'

調度程序將使用的磁盤隊列類型。其他可用的類型有scrapy.squeues.PickleFifoDiskQueue，scrapy.squeues.MarshalFifoDiskQueue，scrapy.squeues.MarshalLifoDiskQueue。

SCHEDULER_MEMORY_QUEUE

默認： 'scrapy.squeues.LifoMemoryQueue'

調度程序使用的內存中隊列的類型。其他可用的類型是： scrapy.squeues.FifoMemoryQueue。

SCHEDULER_PRIORITY_QUEUE

默認： 'queuelib.PriorityQueue'

調度程序使用的優先級隊列的類型。

SPIDER_CONTRACTS

默認：： {}

包含項目中啓用的蜘蛛合同的dict，用於測試蜘蛛。有關更多信息，請參閱蜘蛛合同。

SPIDER_CONTRACTS_BASE

默認：

{
    'scrapy.contracts.default.UrlContract' : 1,
    'scrapy.contracts.default.ReturnsContract': 2,
    'scrapy.contracts.default.ScrapesContract': 3,
}

包含scrapy默認情況下啓用的scrapy合約的dict。您永遠不應該在項目中修改此設置，SPIDER_CONTRACTS 而是修改。有關更多信息，請參閱蜘蛛合同。

您可以通過分配None其類路徑來禁用任何這些合同SPIDER_CONTRACTS。例如，要禁用內置功能ScrapesContract，請將其放入settings.py：

SPIDER_CONTRACTS = {
    'scrapy.contracts.default.ScrapesContract': None,
}

SPIDER_LOADER_CLASS

默認： 'scrapy.spiderloader.SpiderLoader'

將用於加載蜘蛛的類，必須實現 SpiderLoader API。

SPIDER_LOADER_WARN_ONLY

版本1.3.3中的新功能。

默認： False

默認情況下，當scrapy嘗試從中導入蜘蛛類時SPIDER_MODULES，如果有任何ImportError異常，它將大聲失敗。但您可以選擇將此異常靜音並通過設置將其轉換爲簡單警告。SPIDER_LOADER_WARN_ONLY = True

注意

有些scrapy命令使用此設置運行True 已經（即他們只會發出警告並不會失敗），因爲他們實際上並不需要加載蜘蛛類的工作：，，，。scrapy runspiderscrapy settingsscrapy``startprojectscrapy version

SPIDER_MIDDLEWARES

默認：： {}

包含項目中啓用的蜘蛛中間件及其命令的dict。有關更多信息，請參閱激活蜘蛛中間件。

SPIDER_MIDDLEWARES_BASE

默認：

{
    'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50,
    'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500,
    'scrapy.spidermiddlewares.referer.RefererMiddleware': 700,
    'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800,
    'scrapy.spidermiddlewares.depth.DepthMiddleware': 900,
}

包含Scrapy中默認啓用的蜘蛛中間件及其命令的dict。低訂單更接近引擎，高訂單更接近蜘蛛。有關更多信息，請參閱激活蜘蛛中間件。

SPIDER_MODULES

默認： []

Scrapy將尋找蜘蛛的模塊列表。

例：

SPIDER_MODULES = ['mybot.spiders_prod', 'mybot.spiders_dev']

STATS_CLASS

默認： 'scrapy.statscollectors.MemoryStatsCollector'

用於收集統計信息的類，必須實現 Stats Collector API。

STATS_DUMP

默認： True

蜘蛛完成後，將Scrapy統計數據（轉到Scrapy日誌）轉儲。

有關詳細信息，請參閱：統計信息收集。

STATSMAILER_RCPTS

默認值:( []空列表）

在蜘蛛完成刮擦後發送Scrapy統計數據。有關詳情StatsMailer，請參閱。

TELNETCONSOLE_ENABLED

默認： True

一個布爾值，指定是否啓用telnet控制檯（如果其擴展名也已啓用）。

TELNETCONSOLE_PORT

默認： [6023, 6073]

用於telnet控制檯的端口範圍。如果設置爲None或0，則使用動態分配的端口。有關詳細信息，請參閱 Telnet控制檯。

TEMPLATES_DIR

默認值：templatesdir在scrapy模塊中

使用startproject命令創建新項目時使用命令查找模板的目錄以及使用命令創建新蜘蛛的目錄genspider 。

項目名稱不得與project子目錄中的自定義文件或目錄的名稱衝突。

URLLENGTH_LIMIT

默認： 2083

範圍： spidermiddlewares.urllength

允許抓取的網址的最大網址長度。有關此設置的默認值的詳細信息，請參閱：https：//http://boutell.com/newfaq/misc/urllength.html

USER_AGENT

默認： "Scrapy/VERSION (+https://scrapy.org)"

爬網時使用的默認User-Agent，除非被覆蓋。