【安全】使用Nginx過濾網絡爬蟲-【轉】

原創

2018-11-07 23:21

現在的網絡爬蟲越來越多，有很多爬蟲都是初學者寫的，和搜索引擎的爬蟲不一樣，他們不懂如何控制速度，結果往往大量消耗服務器資源，導致帶寬白白浪費了。

其實Nginx可以非常容易地根據User-Agent過濾請求，我們只需要在需要URL入口位置通過一個簡單的正則表達式就可以過濾不符合要求的爬蟲請求：

    ...
    location / {
        if ($http_user_agent ~* "python|curl|java|wget|httpclient|okhttp") {
            return 503;
        }
        # 正常處理
        ...
    }
    ...

變量$http_user_agent是一個可以直接在location中引用的Nginx變量。~*表示不區分大小寫的正則匹配，通過python就可以過濾掉80%的Python爬蟲。

出處: https://www.liaoxuefeng.com/article/001509844125769eafbb65df0a04430a2d010a24a945bfa000

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【安全】使用Nginx過濾網絡爬蟲-【轉】

Wireshark 安裝+使用（一）

【solr操作】solr刪除數據的4種方便快捷的方式-【刪除】

【MMAP】認真分析mmap：是什麼爲什麼怎麼用-sqlite實現原理

【數據庫】-【DB】-Linux CentOS6.5下編譯安裝MySQL 5.6.16【給力詳細教程】-安裝-單機

【Nginx】Nginx啓停相關操作-【Linux/windows】

【轉】【MySQL】安裝配置Mysql主從-集羣

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結