網站禁止網絡搜索引擎的抓取三種方法

    一般情況下,網站建立並運營之後總是希望被搜索引擎收錄的數量越多越好。但這只是通常情況下,大部分人所希望的。有些時候,我們還是會希望搜索引擎蜘蛛不要訪問網站的某些文件夾,當然也有不希望搜索引擎收錄的頁面。
比如說,網站剛剛建立並沒有真正投入運營,還沒有實質性的內容時;還有過多的收錄頁面導致網站權重的分散,而恰恰你想要聚攏權重到某些個最重要的頁面時;再比如建立一個鏡像網站,並主要通過其他的推廣手段(這裏指除了SEO以外的推廣方法)對網站進行運營時……
而搜索引擎收錄網站頁面是需要通過蜘蛛訪問網站,並對頁面內容進行抓取。所以通常情況下,想要阻止搜索引擎的收錄就需要限制、屏蔽蜘蛛的訪問與抓取。下面筆者介紹幾種常用的屏蔽蜘蛛抓取的方法。
1.robots.txt規則文件。
大家都知道robots.txt是指引搜索引擎蜘蛛對該網站訪問與否的規則,平時運用的也比較多。一般的建議是不論網站是否有需要屏蔽收錄的內容,都要在根目錄下建立robots.txt文件。
robots.txt文件規則的寫法很簡單,比如需要屏蔽某一個搜索引擎的蜘蛛訪問所有目錄,就這樣寫:

User-agent:Googlebot
Disallow:/
再比如禁止所有蜘蛛訪問、抓取某一個目錄則:
User-agent:*
Disallow:/admin/

2.robots Meta標籤。
如果說robots.txt是一個放在網站中的規則文件,那robots Meta就是放在某個網頁中的標籤。兩者的實際功能是大致相同的,但robots.txt是大部分搜索引擎都支持的方式,而後者卻是大部分搜索引擎都不支持的。另外相比較下,robots Meta用來對某幾個頁面單獨設置時使用。
robots Meta標籤必須存放在“<head>…</head>”代碼之內:

<head>

<meta name=”robots” content=”index,follow” />
</head>

其中“index”指的是索引,“follow”指的是跟蹤鏈接並傳遞相應的權重。當然相應的還有“noindex”和“nofollow”,功能則正好相反。

3.服務器配置文件。
這種方法是最不常見的屏蔽蜘蛛的方法,主要用於屏蔽那些“不恪守”robots.txt規則的蜘蛛。
方法就是一段時間的分析網站日誌,發現需要屏蔽的蜘蛛以及它的ip。然後通過服務器的配置文件將其屏蔽,從而實現屏蔽某一個蜘蛛抓取網站。當然這種方法運用起來並不靈活,比如不能屏蔽蜘蛛單獨對某一個文件夾(或網頁)的抓取。
因服務器及其系統的不同,具體還請參見相關設置方法。

除以上提到的三種屏蔽蜘蛛抓取的方法以外,應該是有其他的方法可以達到屏蔽蜘蛛抓取的目的,歡迎各位高手在閒暇之時予以補充。
但就以上三種方法而言,第一種robots.txt規則文件的運用更爲廣泛。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章