網站禁止網絡搜索引擎的抓取三種方法

原創

2020-07-05 20:40

一般情況下，網站建立並運營之後總是希望被搜索引擎收錄的數量越多越好。但這只是通常情況下，大部分人所希望的。有些時候，我們還是會希望搜索引擎蜘蛛不要訪問網站的某些文件夾，當然也有不希望搜索引擎收錄的頁面。
比如說，網站剛剛建立並沒有真正投入運營，還沒有實質性的內容時；還有過多的收錄頁面導致網站權重的分散，而恰恰你想要聚攏權重到某些個最重要的頁面時；再比如建立一個鏡像網站，並主要通過其他的推廣手段（這裏指除了SEO以外的推廣方法）對網站進行運營時……
而搜索引擎收錄網站頁面是需要通過蜘蛛訪問網站，並對頁面內容進行抓取。所以通常情況下，想要阻止搜索引擎的收錄就需要限制、屏蔽蜘蛛的訪問與抓取。下面筆者介紹幾種常用的屏蔽蜘蛛抓取的方法。
1.robots.txt規則文件。
大家都知道robots.txt是指引搜索引擎蜘蛛對該網站訪問與否的規則，平時運用的也比較多。一般的建議是不論網站是否有需要屏蔽收錄的內容，都要在根目錄下建立robots.txt文件。
robots.txt文件規則的寫法很簡單，比如需要屏蔽某一個搜索引擎的蜘蛛訪問所有目錄，就這樣寫：

User-agent:Googlebot
Disallow:/
再比如禁止所有蜘蛛訪問、抓取某一個目錄則：
User-agent:*
Disallow:/admin/

2.robots Meta標籤。
如果說robots.txt是一個放在網站中的規則文件，那robots Meta就是放在某個網頁中的標籤。兩者的實際功能是大致相同的，但robots.txt是大部分搜索引擎都支持的方式，而後者卻是大部分搜索引擎都不支持的。另外相比較下，robots Meta用來對某幾個頁面單獨設置時使用。
robots Meta標籤必須存放在“<head>…</head>”代碼之內：

<head>
…
<meta name=”robots” content=”index,follow” />
</head>

其中“index”指的是索引，“follow”指的是跟蹤鏈接並傳遞相應的權重。當然相應的還有“noindex”和“nofollow”，功能則正好相反。

3.服務器配置文件。
這種方法是最不常見的屏蔽蜘蛛的方法，主要用於屏蔽那些“不恪守”robots.txt規則的蜘蛛。
方法就是一段時間的分析網站日誌，發現需要屏蔽的蜘蛛以及它的ip。然後通過服務器的配置文件將其屏蔽，從而實現屏蔽某一個蜘蛛抓取網站。當然這種方法運用起來並不靈活，比如不能屏蔽蜘蛛單獨對某一個文件夾（或網頁）的抓取。
因服務器及其系統的不同，具體還請參見相關設置方法。

除以上提到的三種屏蔽蜘蛛抓取的方法以外，應該是有其他的方法可以達到屏蔽蜘蛛抓取的目的，歡迎各位高手在閒暇之時予以補充。
但就以上三種方法而言，第一種robots.txt規則文件的運用更爲廣泛。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

網站禁止網絡搜索引擎的抓取三種方法

JDBC 與JAVA 數據庫編程

nofollow標籤

mysql_fetch_object 用法

div+css怎麼讓背景圖片自動縮放

網站禁止網絡搜索引擎的抓取三種方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結