scrapy 下載文件

原創

湯湯湯湯湯雪林

2020-09-18 19:03

接到組長需求，在某個網站上搜索“附件”，後下載所有相關文章內的附件.word 或附件.pdf

思路：

Files Pipeline

在某個Spider中，你爬取一個item後，將相應的文件URL放入file_urls字段中
item被返回之後就會轉交給item pipeline
當這個item到達FilesPipeline時，在file_urls字段中的URL列表會通過標準的Scrapy調度器和下載器來調度下載，並且優先級很高，在抓取其他頁面前就被處理。而這個item會一直在這個pipeline中被鎖定，直到所有的文件下載完成。
當文件被下載完之後，結果會被賦值給另一個files字段。這個字段包含一個關於下載文件新的字典列表，比如下載路徑，源地址，文件校驗碼。files裏面的順序和file_url順序是一致的。要是某個寫文件下載出錯就不會出現在這個files中了。

例：

setting.py:

# 同時使用圖片和文件Pipeline
ITEM_PIPELINES={
    'scrapy.pipelines.images.ImagesPipeline': 1,
    'scrapy.pipelines.files.FilesPipeline': 2,
}
# 文件和圖片存儲路徑
FILES_STORE = '/path/to/valid/dir'
IMAGES_STORE = '/path/to/valid/dir'
# 文件過期時間
FILES_EXPIRES = 90
# 圖片過期時間
IMAGES_EXPIRES = 30
# 圖片縮略設置
IMAGES_THUMBS = {
    'small': (50, 50),
    'big': (270, 270),
}
# 圖片過濾器，最小高度和寬度
IMAGES_MIN_HEIGHT = 110
IMAGES_MIN_WIDTH = 110

item.py

import scrapy 
···

class myFileItem(scrapy.Item):
    # ... 其他item fields
    file_urls = scrapy.Field()
    files = scrapy.Field()

以上

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Qt/C++音視頻開發71-指定mjpeg/h264格式採集本地攝像頭/存儲文件到mp4/設備推流/採集推流

一、前言用ffmpeg採集本地攝像頭，如果不指定格式的話，默認小分辨率比如640x480使用rawvideo格式，大分辨率比如1280x720使用mjpeg格式，當然前提是這個攝像頭設備要支持這些格式。目前市面上有一些廠家做的本地設備支持

2024-04-25 14:40:54

git命令下，mac環境下載依賴相關報錯問題解決方案

1.安裝fundry框架curl -L https://foundry.paradigm.xyz | bash 2.寫入環境變量source /Users/xx/.bashrc 3.foundryup 問題1報錯：致命錯誤：無法訪問 'h

西紅柿愛喫馬鈴薯

2024-04-25 14:40:34

Python函數參數爲列表問題

def ADD(a): print(3,a,hex(id(a))) a.remove(2) print(3,a,hex(id(a))) a=a.append(10)

2024-04-25 14:39:54

使用 NestJS 和 qrcode.js 創建 QR 碼生成器 API

前言 QR碼（Quick Response Code）是一種二維碼，於1994年開發。它能快速存儲和識別數據，包含黑白方塊圖案，常用於掃描獲取信息。QR碼具有高容錯性和快速讀取的優點，廣泛應用於廣告、支付、物流等領域。通過掃描QR碼，用戶可

葡萄城技術團隊

2024-04-25 14:39:44

ebpf在Android安全上的應用：ebpf的一些基礎知識(上篇)

ebpf在Android安全上的應用：ebpf的一些基礎知識(上篇) 一、ebpf介紹 eBPF 是一項革命性的技術，起源於 Linux 內核，它可以在特權上下文中（如操作系統內核）運行沙盒程序。它用於安全有效地擴展內核的功能，而無需通過更

2024-04-25 14:36:53

CIRCLEQ_INSERT_AFTER, C語言循環隊列

CMakeLists.txt # CMakeList.txt : CMake project for llist, include source and define # project specific logic here. #

2024-04-25 14:34:32

[MDP.BlazorCore] 快速建立跨Web、App執行的BlazorApp專案

團隊資源受限的時候，使用Blazor開發應用系統，只需開發一份程式碼及使用一種程式語言，就同時產出Web跟App應用系統。本篇文章，紀錄使用MDP.BlazorCore所提供的樣板，快速建立跨Web、App執行的BlazorApp專案。為

2024-04-25 14:32:42

Hessian矩陣以及在血管增強中的應用——OpenCV實現【2024年更新】

有別於廣爲人知的Sobel、Canny等一階算法，基於Hessian矩陣能夠得到圖像二階結果，這將幫助我們深入分析圖像本質。 Hessian矩陣在圖像處理中有着廣泛的應用：其中在圖像分割領域，包括邊緣檢測、紋理分析等；在圖像增強領域，包括邊

2024-04-25 14:32:02

七天.NET 8操作SQLite入門到實戰 - （2）第七天Blazor班級管理頁面編寫和接口對接

前言上一章節我們引入BootstrapBlazor UI組件完成了EasySQLite後臺界面的基本架子的搭建，本章節的主要內容是Blazor班級管理頁面編寫和接口對接。七天.NET 8 操作 SQLite 入門到實戰詳細教程第一天

2024-04-25 14:30:41

WPF開源輕便、快速的桌面啓動器

前言今天大姚給大家分享一款WPF開源、簡單、輕便、快速的桌面啓動器（支持多主題、多語言：簡體中文、繁體中文、英文等）：CurvaLauncher。 WPF介紹 WPF 是一個強大的桌面應用程序框架，用於構建具有豐富用戶界面的 Window

2024-04-25 14:30:41

MySQL 分庫分表方案，總結太全了。。

來源：https://www.cnblogs.com/405845829qq/p/7552736.html 前言公司最近在搞服務分離，數據切分方面的東西，因爲單張包裹表的數據量實在是太大，並且還在以每天60W的量增長。之前瞭解過數據庫的

2024-04-25 14:30:11

公司來了個新同事，把 DDD 運用得爐火純青！

前言我們生活中都聽說了DDD，也瞭解了DDD，那麼怎麼將一個新項目從頭開始按照DDD的過程進行劃分與架構設計呢？一、專業術語各種服務 IAAS：基礎設施服務，Infrastructure-as-a-service PAAS：平臺服務

2024-04-25 14:30:11

抖音的倒水問題, 計算機bfs求解

暴力求解 bfs方法.並且找到的一定是最少步驟問題: 抖音上面又來了一個倒水遊戲例子: 3個杯子, 容量12, 9, 5 上來12是滿的. 然後都沒有刻度只能倒到一個滿這種倒法, 然後最後希望倒出2個6ml的. # 抖音上面又來了一個倒

張博的博客

2024-04-25 14:28:41

tar和zip包加密解密壓縮

1、概述嗯，最近有些機密文件無處安放，因爲太機密了，後來確定加密後放到服務器上。研究一番後發現tar和zip命令都能實現，所以在此記錄一下。壓縮：tar -zcvf - ./packageTest | openssl des3

2024-04-25 14:22:40

解決mysql 事務死鎖的方法

使用以下命令查看引擎的狀態 SHOW ENGINE INNODB STATUS; 如果有事務死鎖可以看到如下圖的關鍵字找到上圖的線程id 使用 kill 57763 .解決問題。問題回放，事務死鎖如何產生？本地調試

2024-04-25 14:22:00

24小時熱門文章

最新文章

scrapy 下載文件

最新評論文章