反爬技術研究 — 網站常用的反爬技術有哪些？

原創

2020-06-01 02:01

反爬技術研究 — 網站常用的反爬技術有哪些？

user-agent

數據請求頭，最初級的反爬，只要在請求中模擬請求頭即可輕鬆飄過。

驗證碼

驗證碼是最常用的反爬蟲措施，但簡單驗證碼通過機器學習自動識別，通常正確率能達到50%以上甚至更高。
複雜驗證碼通過提交到專門的打碼平臺進行人工打碼，依據驗證碼的複雜度，打碼工人平均每碼收1-2分錢，成本比較低。也同樣容易被繞過，使得數據容易被爬取。

封IP

這是最有效也最容易誤殺的方案。該策略建立在 IP 稀有的前提下，目前通過代理池購買，ADSL，或者撥號 VPS 等方式，可以低成本獲取數十萬的 IP 池，導致單純的封IP策略效果越來越差。

滑塊驗證

滑塊驗證結合了機器學習技術，只需要滑動滑塊，而不用看那些複雜到有時人眼也無法分辨的字母。但由於部分廠商實現時校驗算法較爲簡單，導致經常只需要相對簡單的模擬滑動操作就能繞過，從而使得數據被惡意爬取。
類似案例：淘寶，阿里雲，淘寶聯盟

關聯請求上下文

反爬蟲可以通過 Token 或網絡請求上下文是否進行了完整流程的方式來判斷是否真人訪問。但對具有協議分析能力的技術人員來說進行全量模擬並沒有太大困難。
類似案例：知乎，百度登錄過程。

JavaScript 參與運算

簡單的爬蟲無法進行 js 運算，如果部分中間結果需要 js 引擎對 js 進行解析和運算，那麼就可以讓攻擊者無法簡單進行爬取。但爬蟲開發者依然可以通過自帶 js 引擎模塊或直接使用 phantomjs ，chrome等無端瀏覽器進行自動化解析。

提高數據獲取成本

當面對的是職業選手時，只能通過提升對方人力成本來實現，比如代碼混淆、動態加密方案、假數據，混淆數據等方式，利用開發速度大於分析速度的優勢，來拖垮對方的意志。如果對方咬定不放鬆，那隻能持續對抗，直到一方由於機器成本或人力成本放棄。
典型案例：汽車之家字體替換，去哪兒網網隱藏在CSS元素座標中
https://blog.csdn.net/zwq912318834/article/details/80243056
https://blog.csdn.net/zwq912318834/article/details/80268149

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python爬蟲之selenium爬取英雄聯盟官網英雄皮膚圖片下載到本地和保存到數據庫

從英雄聯盟皮膚網站的網頁源代碼中獲取不到英雄的皮膚地址通過selenium可以輕鬆獲取想要的內容源碼展示 from selenium import webdriver from time import sleep from

2020-07-08 00:23:55

python爬蟲：番號挖掘機！可下載直接運行。

最近一直在學習python，想寫一些練習。看別人都是爬壁紙什麼的，感覺那些也沒啥意思，所有我就去爬番號了。如果不想自己複製代碼可以自行下載點我下載，提取碼：9nas 爬蟲目錄 __pycache__:這個文件夾python

你就叫我李大帅

2020-07-07 21:45:58

使用Beautifulsoup解析網頁遇到的問題

今天遇到一個網頁，按往常的老辦法 soup = BeautifulSoup(content, 'lxml') 打印soup發現少了很多數據，剛開始還以爲反爬，後來經過驗證不是。、那麼就是解析問題，我換成了 soup = Bea

2020-07-07 18:21:30

python如何下載MP4視頻和獲取時長

我們做爬蟲工作時，經常會遇到要把爬取的視頻下載到本地做存儲，那麼我們如何使用python去下載視頻呢，下載視頻不是本文章的重點，在此廢話不多說，直接上完整的代碼： def download_file(url, base_path, fi

公众号菜鸟童靴

2020-07-07 11:53:23

execjs執行js代碼報錯:Exception in thread Thread-1

最近在爬一個js數據加密的網站的時候,出了點問題,困擾了我兩天直接運行js文件的時候正常,但是用execjs運行js代碼的時候總是會報錯最後翻了很多博客之後,終於找到了原因:原因是有一個程序在使用TextIOWrapper 類

公众号菜鸟童靴

2020-07-07 11:53:23

python爬蟲初學的小記錄

self.headers = {“User-Agent”: “Mozilla/5.0”} 對headers的解釋： User Agent中文名爲用戶代理，是Http協議中的一部分，屬於頭域的組成部分，User Agent也簡稱UA

weixin_42929804

2020-07-07 03:33:36

五、分佈式爬蟲學習之BeautSoup4

BeautifulSoup4庫和lxml一樣，BeautifulSoup也是一個HTML/XML的解析器，主要功能也是如何解析和提取HTML/XML數據。區別：lxml只會局部遍歷，而BeautifulSoup是基於HTML

2020-07-06 17:47:01

十三、學習分佈式爬蟲之字體反爬

字體反爬字體反爬原理網頁開發者自己創造一種字體，因爲在字體中每個文字都有其代號，那麼以後在網頁中不會直接顯示這個文字的最終的效果，而是顯示他的代號，因此即使獲取到了網頁中的文本內容，也只是獲取到文字的代號，而不是文字本身。

2020-07-06 17:47:01

八、學習分佈式爬蟲之多線程

多線程爬蟲理解多線程掌握threading模塊的使用掌握生產者消費者模式理解GIL 能用多線程寫爬蟲什麼是多線程理解：默認情況下，一個程序只有一個進程和一個線程，代碼是依次線性執行的，而多線程則可以併發執行，一次性多

2020-07-06 17:47:01

十四、學習分佈式爬蟲之Scrapy

Scrapy框架學習目標理解scrapy框架。學會spider爬蟲的編寫。學會Crawlspider爬蟲編寫。學會中間件的編寫。學會pipeline保存數據。學會將Scrapy結合selenium一起使用。學會在

2020-07-06 17:47:01

二、學習分佈式爬蟲之urllib庫

urllib庫（python自帶） urllib庫是python中一個基本的網絡請求庫，可以模擬瀏覽器行爲，向指定的服務器發送請求，並可以保存服務器返回的數據。 python3的urllib庫中所有和網絡請求相關的方法，都被集到u

2020-07-06 17:47:01

一、學習分佈式python網絡爬蟲第一天

1~3天學習目錄爬蟲基礎 urllib庫基本使用 requests庫基本使用爬蟲基礎知識 1.什麼是爬蟲爬蟲是一個模擬人類請求網站行爲的程序，可以自動請求網頁，並把數據爬取下來，然後用一定的規則提取有價值的數據。 2.爬

2020-07-06 17:47:01

六、學習分佈式爬蟲之正則表達式

正則表達式和re模塊什麼是正則表達式：通俗的理解，就是按照一定的規則，從某個字符串中匹配出想要的數據。這個規則就是正則表達式。正則表達式語法 import re # 匹配某個字符串 # text = 'abc' # ret

2020-07-06 17:47:01

Python爬取博客園數據---環境準備

1、安裝環境Python爬取需要的環境直接使用Anaconda3的集成環境，然後安裝scrapy包。打開遊覽器，搜索Anaconda3 點擊Anaconda3的官網進入下載下載完之後安裝Anaconda3，一直next即可。

小白的Python梦

2020-07-06 10:03:45

Python爬蟲實例（二）爬取數據後併入excel

報錯：Module Not Found Error: No module named 'openpyxl' 則下載openpyxl模塊，pip install openpyxl 源碼： import requests from lxm

穆鸽子的迷弟

2020-07-06 09:24:15

24小時熱門文章

最新文章

最新評論文章