【Scrapy-02】圖片網站的爬蟲開發技巧和案例

1、主要用到的技巧。

——繞過反爬的一些設置主要在settings.py裏面，這個案例用了三個設置。

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Disable cookies (enabled by default)
COOKIES_ENABLED = False

——有些網站採用了懶加載，這個懶加載我們直接爬取首頁是爬不到的，需要拿到懶加載的網址，然後手動請求一下這個網址，然後分析這個網址的response。

# 這邊直接通過接口獲得頻道連接
start_urls = ['xxx']

——有的時候，懶加載的response可能是個json形式，而且裏面還有很多轉義的標識符\，這個時候，我們可以用python字符串的replace方法處理一下。

# 拿到的鏈接需要處理一下轉義字符
cateurl = cateurl.replace("\/", "/")

——下載圖片的方法在urllib.request下面，所以導入包的時候需要注意。

import urllib.request

urllib.request.urlretrieve（url,filename）

2、案例裏面去掉了具體的網站信息，爬蟲僅供學習用。

下載地址：用scrapy爬取下載某圖片網站的全部圖片

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【Scrapy-02】圖片網站的爬蟲開發技巧和案例

Android啓動過程-萬字長文(Android14)

【SQL進階】CASE語句的使用

optional install error: Error: Unsupported URL Type: npm:vue-loader@^16.1.0

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺

iNeuOS工業互聯網操作系統，增加電力IEC104協議

微服務實踐k8s&dapr開發部署實驗（3）訂閱發佈

chromedriver版本

kbgressdb之數據結構V0.2

Redis安裝配置、內存維護、數據持久化、遠程與GUI、Docker安裝、基本數據類型和命令、springboot與Jedis和Lettuce、事務、集羣

【Scrapy-02】圖片網站的爬蟲開發技巧和案例

ElasticSearch7：安裝摺騰、基本命令、搜索和高級查詢、分詞器、字段類型、kibana、實用技能、springboot整合、集羣搭建、原理簡介

【Scrapy-01】安裝、創建項目、創建爬蟲、簡單爬取百度title的例子以及工作流程簡介

JVM類加載器、代碼初始化執行順序

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結