【太陽軟件】動態換ip軟件:反爬蟲對抗對數據分析的影響

 概念定義

  ► 網絡爬蟲:使用任意技術手法批量獲取網站站點網頁信息的1種方法。

  ► 反網絡爬蟲:是指使用任意技術手法,阻止別人批量獲取自己網站站點網頁信息的1種方法。

  (主講重點強調了“批量”二字,如果一次只獲取幾百條數據不能稱之爲網絡爬蟲,因爲人工去複製粘貼的效率可能更高)

  ► 誤傷:在反網絡爬蟲過程中,錯誤地將一般正常用戶識別爲網絡爬蟲的行爲。

  ► 攔截:成功阻止網絡爬蟲訪問。

  反網絡爬蟲原理

  形形×××的假幣有一個共同的特徵,就是和真幣不一樣。同理,形形×××的網絡爬蟲也有一個共同的特徵,那就是它們的行爲和真實的正常用戶不一樣。

  對於每一天大批量的訪問,反網絡爬蟲工程師需要根據訪問行爲的特徵,鑑定哪些訪問是網絡爬蟲所爲,然後採取一些措施阻止其獲取數據。但是也有一定概率將真實正常用戶判定爲網絡爬蟲,而導致該正常用戶無法繼續訪問網站站點或者無法看到真實的數據,影響了正常用戶體驗,這就是誤傷。

  反網絡爬蟲策略的演變

  最初反網絡爬蟲的思路的是阻止對方拿到數據,但是在博弈中工程師們逐漸發現,網絡爬蟲是無法完全攔截的。因此現在更多的策略變成提供假數據,降低對方數據分析的可信性。

  主講人給大家舉一個例子把這個策略具體化。A企業和B企業進行價格競爭,雙方都希望自己的定價低於對方來吸引正常用戶。假設A企業定價200元,而B企業想要通過爬取A企業的價格數據制定更低的價格。此時A企業的反網絡爬蟲策略是對識別爲網絡爬蟲的訪問並提供220元的價格。這樣一來,B企業就很可能基於這個假數據給相同商品定了一個210元的價格,以爲可以在自己利潤損失較少的情況下吸引客戶。但事實上,這個價格比A企業的真實定價要高,正常用戶一筆價,還是會選擇購買A企業的產品。在這種情況下,B企業通過網絡爬蟲獲得的數據就無法產生經濟效益,A企業的“反網絡爬蟲數據保衛戰”取得了勝利。

  當這種策略成了業內的共同知識,不少企業都會對爬取到的數據進行檢查。目前,業界對所爬數據的處理方式主要有以下三種:

  ① 不驗證

  ② 多次爬取驗證

  ③ 人工抽檢

  網絡爬蟲與反網絡爬蟲崗位對比

  一般企業都會對外聲稱自己做反網絡爬蟲,而隱瞞自己做網絡爬蟲。因爲做網絡爬蟲就像在偷別人的數據,而做反網絡爬蟲則像在維護自己的資源,同時標榜自己的技術。但是招聘網站站點的數據是誠實的,在招聘網站站點上能搜到的反網絡爬蟲工程師崗位屈指可數,而網絡爬蟲工程師卻非常多。

  企業一般很難招到反網絡爬蟲工程師,因爲會網絡爬蟲的很多,會反爬的工程師很少。人才以稀爲貴,反網絡爬蟲工程師的薪資也通常會比網絡爬蟲工程師高很多。因爲人員缺乏,反網絡爬蟲的工作通常是由非專業團隊來做的。一般都是在對企業網站站點常常遭遇網絡爬蟲的時期,管理人員以升職加薪爲“誘餌”,調一部分前端的技術人員去做艱苦的反網絡爬蟲工作。

  反網絡爬蟲工程師的工作比較穩定,而網絡爬蟲工程師則比較容易離職。這是因爲企業對網絡爬蟲工程師的績效考覈非常嚴格(比如抽查3000條數據,只要有一條是假的數據就全部重爬),容易造成壓力。當然,被競爭對手的反網絡爬蟲工程師勸退也是離職率高背後一個比較重要的原因。關於這點先賣個關子,之後再展開來講。

  網絡爬蟲和反網絡爬蟲的戰爭

  網絡爬蟲和反網絡爬蟲的戰爭耗費了很多資源,非常無聊,而且常常無法產生經濟效益。他們之間的戰爭就像遊戲和外掛的戰爭一樣。遊戲發佈→外掛橫行→遊戲修補→漏洞外掛失效→新外掛出現→遊戲再修補……反反覆覆,直到一方撐不下去,網絡爬蟲與反爬也是如此。

  一個情節跌宕起伏的實例:反網絡爬蟲工程師爲了等待對方網絡爬蟲工程師下班,靜靜忍到晚上11點才更新策略,但第二天一覺醒來卻發現自己的反網絡爬蟲系統竟然在凌晨3點被破解、數據也被對方獲取,下定決心以後睜着大眼睛等到凌晨3點之後再對策略進行更新。

  對弈是煎熬的,但在這雙方來來去去的過程中也發生了不少趣事。反網絡爬蟲工程師有時會在網站站點的代碼中添加一些註釋,這些註釋一般正常用戶看不到,但是網絡爬蟲工程師可以看到。他們會在這些註釋裏寫一些讓對方放棄的話語。甚至在一層層反網絡爬蟲策略靠後的位置放一些招聘網頁信息,策反對面網絡爬蟲工程師,因爲能通過前面的重重關卡來到這裏的,技術都是有保證的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章