scrapy優化內存佔用

原創

2020-04-15 14:19

最近發現公司的scrapy爬蟲服務運行起來之後，佔用內存持續增大，單個爬蟲爬取幾十萬網頁之後，佔用內存達到1,2個G，單臺服務器運行10個以上的爬蟲時，很快就把服務器內存耗盡了。於是着手對爬蟲進行空間性能分析及優化
首先分析以下可能原因，並依次進行排查：

內存泄露
資源長時間佔用無法釋放
隊列堵塞

排查及修改記錄：
1）引用賦值帶來的資源無法釋放

python帶有自動的垃圾回收機制，用戶不需要主動的釋放對象空間，因此暫不考慮內存泄露問題。更多的內存問題出現在對象交叉引用或者多層引用後，無法自動釋放的情況。於是仔細排查代碼，發現了以下問題：

class BLSpider(scrapy.Spider):
# 無用代碼忽略...

    def parse_page(self, response):
        meta = response.meta
        meta['source'] = response.url
        ...
        # 提取新的鏈接 -> newlinks
        for link in newlinks:
            yield Request(link, meta=meta, callback=self.parse_page)

生成一個新請求時，會傳遞一組元數據meta。代碼直接由當前response的meta數據直接賦值後傳入新的請求中，這就帶來一個潛在的內存問題：python的賦值是傳遞引用，也就是等號兩邊變量指向同一個對象（同一個地址），meta繼續通過request向下傳遞時，原來的response對象由於一部分成員被新的request引用而無法釋放，隨着請求越來越多，內存持續增大。
要解決這個問題，需要將賦值改成拷貝，查看meta的實際數據結構發現其中的value都是簡單類型，因此直接採用淺拷貝即可（關於python 的深拷貝、淺拷貝參考https://docs.python.org/2/library/copy.html）。這樣新的meta變量與response.meta不再指向同一對象，過期對象的資源可以自動回收

import copy
class BLSpider(scrapy.Spider):
# 無用代碼忽略...

    def parse_page(self, response):
        meta = copy.copy(response.meta)
        meta['source'] = response.url
        ...
        # 提取新的鏈接 -> newlinks
        for link in newlinks:
            yield Request(link, meta=meta, callback=self.parse_page)

2）scrapy的請求過多
利用scrapy自帶的telnet工具，可以查看scrapy的一些運行時參數

telnet localhost 6023

進入telnet後輸入prefs()，查看當前的對象數

>>> prefs() 
Live References 

HtmlResponse                       75   oldest: 5s ago 
PageItem                           11   oldest: 0s ago 
Request                        146609   oldest: 12408s ago 
Selector                           67   oldest: 4s ago 
WangdingSpider                      1   oldest: 31198s ago

在爬蟲佔用內存達到1.2G的時候，內存中的request有14萬多，查看scrapy的官方文檔，發現其中一章提供了可以將request隊列寫入硬盤的方法https://doc.scrapy.org/en/latest/topics/jobs.html?highlight=JOBDIR，這個技術的初衷是可以讓爬蟲中斷後恢復現場繼續運行，但是也可以減少內存的佔用。
重新啓動scrapy，按照文檔說明傳入jobdir參數，

scrapy crawl news -s JOBDIR=/data/jobdir

運行一段時間後檢查內存，發現scrapy始終只佔用100~200MB，而jobdir中的request文件越來越大，說明scrapy把之前內存中保存的大量request對象存到了文件中。

總結：
本次scrapy空間性能優化主要完成兩個工作：
1）利用copy解決python對象嵌套引用問題，使資源能順利釋放
2）將scrapy的請求隊列存入文件，省掉其在內存中的佔用空間

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

scrapy優化內存佔用

如何使用 JS 判斷用戶是否處於活躍狀態

Mono 支持LoongArch架構

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

網絡爬蟲的祕密：如何高效地抓取JD.com視頻鏈接

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

FastAPI中解決docs路徑不能訪問的問題，需要替換swagger-ui的cdn連接

RabbitMQ 遠程 IP 訪問解決辦法 -摘自網絡

SQLSERVER查詢所有數據庫名，表名，和字段名的語句

deepin安裝Redis步驟以及簡單配置

python sanic框架cors跨域解決

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結