scrapy AWS圖片存儲

scrapy將爬取下來的圖片存儲到AWS 的 S3 bucket上.

一.在settings裏面配置AWS

現有的scrapy還不支持boto3,只有boto,但我還是加上了AWS這些參數(在boto3裏是必需的).在這裏插入圖片描述

二. 你需要改寫 ImageDownloadPipeline類

1.其中會有幾個方法比較重要,第一是 get_media_requests 請求下載圖片方法,不改寫的話維持默認
2. file_path, 意指存儲位置的方法,命名文件名和儲存位置.
3. item_completed 圖片下載完成的操作,如統計圖片名字和存儲位置.

官方文檔位置

除了以上你還可以不用scrapy自帶的,自己使用boto3上傳圖片,缺點是不能原生image下載pipeline(用aiohttp下載圖片,配合boto3應該也能達到原生的效果).
發佈了79 篇原創文章 · 獲贊 19 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章