反爬技術研究 — 網站是通過什麼方式來發現爬蟲的?

反爬技術研究 —— 網站是通過什麼方式來發現爬蟲的?

記錄下目前已知的幾種。

  • 請求頭header,user-agent:用scrapy編寫時務必修改其默認值。
  • 單一IP非常規的訪問頻次。
  • 單一IP非常規的數據流量。
  • 大量重複簡單的網站瀏覽行爲。
  • 只下載網頁,沒有後續的js、css請求。
  • chromedriver瀏覽器參數識別,跟安裝的瀏覽器不一致。
  • 通過設置一些陷阱來發現爬蟲,例如一些通過CSS對用戶隱藏的鏈接,只有爬蟲纔會訪問到。
  • 雲端AI技術:分析用戶行爲

案例網站:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章