python爬取網站數據，如何繞過反爬蟲策略

原創

2018-10-06 02:34

1、使用session對象

session = requests.session()
strhtml = session.get(url) #與當前網站的首次會話

2、設置headers

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                         "Chrome/69.0.3497.100 Safari/537.36",
           "Accept": "application/json"}
session.headers = headers

3、設置cookies

設置與網站首次會話時的cookies爲默認的cookies

cookies = session.cookies
session.headers.setdefault('cookies', cookies)

此後，可以複用之前會話中的cookies了

strhtml2 = session.get(url2)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python爬取網站數據，如何繞過反爬蟲策略

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

java由於越界導致的報錯

Cucumber + Watir webdriver + Ruby 功能自動化測試

我的友情鏈接

python爬取網站數據，如何繞過反爬蟲策略

JSON對象內容相同，順序不同時進行比較

Loadrunner通過驗證碼並實現成功登錄的方法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結