1、主要用到的技巧。
——繞過反爬的一些設置主要在settings.py
裏面,這個案例用了三個設置。
# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
# Disable cookies (enabled by default)
COOKIES_ENABLED = False
——有些網站採用了懶加載,這個懶加載我們直接爬取首頁是爬不到的,需要拿到懶加載的網址,然後手動請求一下這個網址,然後分析這個網址的response
。
# 這邊直接通過接口獲得頻道連接
start_urls = ['xxx']
——有的時候,懶加載的response
可能是個json
形式,而且裏面還有很多轉義的標識符\
,這個時候,我們可以用python
字符串的replace
方法處理一下。
# 拿到的鏈接需要處理一下轉義字符
cateurl = cateurl.replace("\/", "/")
——下載圖片的方法在urllib.request
下面,所以導入包的時候需要注意。
import urllib.request
urllib.request.urlretrieve(url,filename)
2、案例裏面去掉了具體的網站信息,爬蟲僅供學習用。