最近發現有人採集我們的網站就在服務器新部署了日誌分析系統awstats。根據awstats分析結果快速定位了疑似採集器的IP xxx.xxx.xxx.200,在服務器上部署了iptables防火牆,對這個IP的80端口訪問予以限制。
下面分享一下分析思路:
1. 如下圖所示,xxx.xxx.xxx.200此IP每日訪問量高達400MB以上,並且訪問時間都是凌晨。
2. 如下圖所示,在服務器上人工處理了apache的訪問日誌,發現xxx.xxx.xxx.200此IP訪問的都是文章頁面,次數高達每天600多篇文章。
3. 如下圖所示,xxx.xxx.xxx.200此IP爲安裝了IIS服務的xp或windows server 2003。
因此判斷xxx.xxx.xxx.200此IP爲採集器進行了攔截。
除了基本的IP攔截法之外,還可以通過其他方法來進行網站採集的防範,例如:多做幾個列表和內容模板隨機使用,替換關鍵詞,圖片防盜鏈,圖片加水印,在文章裏隨機加一些與背景色相同的文字,
限制IP地址單位時間的訪問次數,利用js加密網頁內容,網頁裏隱藏網站版權或者一些隨機垃圾文字 這些文字風格寫在css文件中,利用腳本語言做分頁(隱藏分頁),採用動態不規則的html標籤,在文章的頭尾加上隨機廣告,在文章正文頁面插入重複特徵頭尾代碼的註釋,加在文章列表的隨便鏈接樣式等方法。
分享幾個鏈接:
http://www.nowamagic.net/seo/seo_PreventSiteToBeCollecting.php
http://bbs.chinahtml.com/t1358-print/