題外話
說明一下爲什麼叫修復版,我之前發了這篇文章,發現只有我自己能看:
這是我自己打開的我的博客首頁:
點進去:
這是我換了個瀏覽器之後打開的:
換了個瀏覽器,點進去:
很奇怪了,所以我就複製內容重新編輯了一份發佈了,不去糾結了。
前言
需要網站的,私信我(不玩套路那種)
分析
首先打開這個網站,看到由cloudflare,心裏戈登一下,不慌,接着看
找到接口,查看返回數據
拿到數據接口單獨請求會出現如下:
發現果然有cloundflare檢測
用火狐瀏覽器打開
然後用重放請求功能看看,正常請求
而且能正常拿數據
那我用postman測試:
很奇怪的不行
用代碼測試
也不行
有朋友說,哎,你這不是有返回數據嗎,仔細看哈,狀態碼時403,那說明返回的也多半不是真實數據,我知道有些確實用403狀態來僞造,其實返回的也是真實數據,但是這種事極少數的情況,而前面我們已經用瀏覽器測試了,確實是200纔會返回真實數據
你這不覺得很奇怪嗎?瀏覽器正常請求,然後postman和代碼就是不行,而它請求參數裏又沒有什麼奇怪的參數,也是get請求,都是很簡單的東西
找到關鍵點
這個咋整呢?
我們再回去一步一步看看,找到個關鍵的東西:
http2.0啥東西呢?
可以看看下面兩個文字參考鏈接:
https://mp.weixin.qq.com/s/dFxyRYmqm5if8k-S1MjFJw
https://tding.top/archives/9bd92731.html
如果你覺得浪費時間的話,可以看我下面說的,精簡過的:
1. 現在很多爬蟲庫其實對 HTTP/2.0 支持得不好,比如大名鼎鼎的 Python 庫 —— requests,到現在爲止還只支持 HTTP/1.1,啥時候支持 HTTP/2.0 還不知道。
2.Scrapy 框架最新版本 2.5.0(2021.04.06 發佈)加入了對 HTTP/2.0 的支持,但是官網明確提示,現在是實驗性的功能,不推薦用到生產環境
插一句,Scrapy 中怎麼支持 HTTP/2.0 呢?在 settings.py 裏面換一下 Download Handlers 即可:
DOWNLOAD_HANDLERS = {
'https': 'scrapy.core.downloader.handlers.http2.H2DownloadHandler',
}當前 Scrapy 的 HTTP/2.0 實現的已知限制包括:
- 不支持 HTTP/2.0 明文(h2c),因爲沒有主流瀏覽器支持未加密的 HTTP/2.0。
- 沒有用於指定最大幀大小大於默認值 16384 的設置,發送更大幀的服務器的連接將失敗。
- 不支持服務器推送。
- 不支持
bytes_received
和headers_received
信號。關於其他的一些庫,也不必多說了,對 HTTP/2.0 的支持也不好,目前對 HTTP/2.0 支持得還可以的有 hyper 和 httpx,後者更加簡單易用一些
nginx也可以配置http2.0的:
if ($server_protocol !~* "HTTP/2.0") {
return 444;
}
3.目前在python中,支持http2.0的:
- Hyper
- Httpx
hyper的話,不是很適用,因爲很多功能跟requests庫沒法類比,所以這裏選用httpx
前提需要安裝:
pip install httpx[http2] # 這樣寫才能裝上支持http2的httpx,不寫的話默認是不支持http2的
使用httpx:
配置好後使用,正常拿數據,記得要加http=True的屬性
關於httpx使用socks協議代理問題:
https://pypi.org/project/httpx-socks/,
裝完httpx-scoks庫之後就支持socks協議的代理了,然後正常拿到數據