python爬蟲 - 爬蟲之針對http2.0的某網站爬取 - 修復版

原創

Eeyhan

2021-05-22 13:15

題外話

說明一下爲什麼叫修復版，我之前發了這篇文章，發現只有我自己能看：

這是我自己打開的我的博客首頁：

點進去：

這是我換了個瀏覽器之後打開的：

換了個瀏覽器，點進去：

很奇怪了，所以我就複製內容重新編輯了一份發佈了，不去糾結了。

前言

需要網站的，私信我（不玩套路那種）

分析

首先打開這個網站，看到由cloudflare，心裏戈登一下，不慌，接着看

找到接口，查看返回數據

拿到數據接口單獨請求會出現如下：

發現果然有cloundflare檢測

用火狐瀏覽器打開

然後用重放請求功能看看，正常請求

而且能正常拿數據

那我用postman測試：

很奇怪的不行

用代碼測試

也不行

有朋友說，哎，你這不是有返回數據嗎，仔細看哈，狀態碼時403，那說明返回的也多半不是真實數據，我知道有些確實用403狀態來僞造，其實返回的也是真實數據，但是這種事極少數的情況，而前面我們已經用瀏覽器測試了，確實是200纔會返回真實數據

你這不覺得很奇怪嗎？瀏覽器正常請求，然後postman和代碼就是不行，而它請求參數裏又沒有什麼奇怪的參數，也是get請求，都是很簡單的東西

找到關鍵點

這個咋整呢？

我們再回去一步一步看看，找到個關鍵的東西：

http2.0啥東西呢？

可以看看下面兩個文字參考鏈接：

https://mp.weixin.qq.com/s/dFxyRYmqm5if8k-S1MjFJw

https://tding.top/archives/9bd92731.html

如果你覺得浪費時間的話，可以看我下面說的，精簡過的：

1. 現在很多爬蟲庫其實對 HTTP/2.0 支持得不好，比如大名鼎鼎的 Python 庫 —— requests，到現在爲止還只支持 HTTP/1.1，啥時候支持 HTTP/2.0 還不知道。

2.Scrapy 框架最新版本 2.5.0（2021.04.06 發佈）加入了對 HTTP/2.0 的支持，但是官網明確提示，現在是實驗性的功能，不推薦用到生產環境

插一句，Scrapy 中怎麼支持 HTTP/2.0 呢？在 settings.py 裏面換一下 Download Handlers 即可：
DOWNLOAD_HANDLERS = {
    'https': 'scrapy.core.downloader.handlers.http2.H2DownloadHandler',
}
當前 Scrapy 的 HTTP/2.0 實現的已知限制包括：

不支持 HTTP/2.0 明文（h2c），因爲沒有主流瀏覽器支持未加密的 HTTP/2.0。

沒有用於指定最大幀大小大於默認值 16384 的設置，發送更大幀的服務器的連接將失敗。

不支持服務器推送。

不支持bytes_received和 headers_received信號。

關於其他的一些庫，也不必多說了，對 HTTP/2.0 的支持也不好，目前對 HTTP/2.0 支持得還可以的有 hyper 和 httpx，後者更加簡單易用一些

nginx也可以配置http2.0的：

if ($server_protocol !~* "HTTP/2.0") {
return 444;
}

3.目前在python中，支持http2.0的：

Hyper

Httpx

hyper的話，不是很適用，因爲很多功能跟requests庫沒法類比，所以這裏選用httpx

前提需要安裝：

pip install httpx[http2] # 這樣寫才能裝上支持http2的httpx，不寫的話默認是不支持http2的

使用httpx:

配置好後使用，正常拿數據，記得要加http=True的屬性

關於httpx使用socks協議代理問題：

https://pypi.org/project/httpx-socks/，

裝完httpx-scoks庫之後就支持socks協議的代理了，然後正常拿到數據

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python爬蟲 - 爬蟲之針對http2.0的某網站爬取 - 修復版

題外話

前言

分析

用火狐瀏覽器打開

那我用postman測試：

用代碼測試

找到關鍵點

使用httpx:

關於httpx使用socks協議代理問題：

app逆向之安卓native層安全逆向分析（八）：unidbg補前置環境+io重定向

app逆向之安卓native層安全逆向分析（七）：unidbg自嘗試某潮流app+dvmObject[]處理

某app請求參數分析

app逆向之安卓native層安全逆向分析（六）：frida調試跟棧+unidbg補環境大動作

app逆向之安卓native層安全逆向分析（五）：unidbg黑盒調用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結