3行代碼教你檢測爬蟲，實現實時的爬蟲封禁！

原創

2021-01-30 10:20

是否擔心別人將你的博客文章全部爬下來？

是否擔心高頻率爬蟲導致網站癱瘓？

別擔心，現在有一個Python寫的神器——crawlerdetect，幫助你檢測爬蟲，保障網站的正常運轉。

1.準備

Windows環境下打開Cmd(開始—運行—CMD)，蘋果系統環境下請打開Terminal(command+空格輸入Terminal)，準備開始輸入命令安裝依賴。

在終端輸入以下命令安裝我們所需要的依賴模塊:

pip install crawlerdetect

看到 Successfully installed xxx 則說明安裝成功。

2.使用方法

它可以通過user-agent、headers等請求頭識別爬蟲或機器人。

因此，你可以傳遞兩種參數。第一種，使用user-agent檢測機器人：

from crawlerdetect import CrawlerDetect
crawler_detect = CrawlerDetect(user_agent='Mozilla/5.0 (iPhone; CPU iPhone OS 7_1 like Mac OS X) AppleWebKit (KHTML, like Gecko) Mobile (compatible; Yahoo Ad monitoring; https://help.yahoo.com/kb/yahoo-ad-monitoring-SLN24857.html)')
crawler_detect.isCrawler() # 如果是機器人，這條語句返回True

第二種識別方式會用上全部headers參數，這種方式比單純用user-agent精準，因爲它判斷的依據更加全面。

from crawlerdetect import CrawlerDetect
crawler_detect = CrawlerDetect(headers={'DOCUMENT_ROOT': '/home/test/public_html', 'GATEWAY_INTERFACE': 'CGI/1.1', 'HTTP_ACCEPT': '*/*', 'HTTP_ACCEPT_ENCODING': 'gzip, deflate', 'HTTP_CACHE_CONTROL': 'no-cache', 'HTTP_CONNECTION': 'Keep-Alive', 'HTTP_FROM': 'googlebot(at)googlebot.com', 'HTTP_HOST': 'www.test.com', 'HTTP_PRAGMA': 'no-cache', 'HTTP_USER_AGENT': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.71 Safari/537.36', 'PATH': '/bin:/usr/bin', 'QUERY_STRING': 'order=closingDate', 'REDIRECT_STATUS': '200', 'REMOTE_ADDR': '127.0.0.1', 'REMOTE_PORT': '3360', 'REQUEST_METHOD': 'GET', 'REQUEST_URI': '/?test=testing', 'SCRIPT_FILENAME': '/home/test/public_html/index.php', 'SCRIPT_NAME': '/index.php', 'SERVER_ADDR': '127.0.0.1', 'SERVER_ADMIN': '[email protected]', 'SERVER_NAME': 'www.test.com', 'SERVER_PORT': '80', 'SERVER_PROTOCOL': 'HTTP/1.1', 'SERVER_SIGNATURE': '', 'SERVER_SOFTWARE': 'Apache', 'UNIQUE_ID': 'Vx6MENRxerBUSDEQgFLAAAAAS', 'PHP_SELF': '/index.php', 'REQUEST_TIME_FLOAT': 1461619728.0705, 'REQUEST_TIME': 1461619728})
crawler_detect.isCrawler() # 如果是機器人，這條語句返回True

你還可以識別相應爬蟲的名字（如果有的話），通過這種方式，你能給一些著名的爬蟲（如baiduspider、googlebot）添加白名單，不進行攔截。

from crawlerdetect import CrawlerDetect
crawler_detect = CrawlerDetect()
crawler_detect.isCrawler('Mozilla/5.0 (compatible; Sosospider/2.0; +http://help.soso.com/webspider.htm)') # 如果是機器人，這條語句返回True
crawler_detect.getMatches() # Sosospider
新手學習，Python 教程/工具/方法/解疑＋V：itz992

有了這個工具，我們就可以實現實時的爬蟲封禁：

首先，你要實時監控網站上的http請求，檢測其對應的headers.

其次，如果識別到該請求是機器人（爬蟲）發出的，就可將其IP記錄下來。

最後，將IP加入到Nginx或Apache的動態黑名單中，實現實時的爬蟲封禁。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

3行代碼教你檢測爬蟲，實現實時的爬蟲封禁！

1.準備

2.使用方法

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

界面組件DevExpress WPF v23.2 - 全新升級的數據編輯器、流程圖組件

「Qt Widget中文示例指南」如何實現一個快捷編輯器（二）

界面控件Telerik UI for WPF中文教程 - 如何輕鬆實現日期範圍選擇？

天地圖開發接入指南

【解決】element表單動態添加或更新表單項，回顯後無法修改或提示爲空的問題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結