[翻譯]robots.txt 指南--介紹

 

原文:http://javascriptkit.com/howto/robots.shtml
譯者:Tony Qu,BluePrint翻譯團隊
有一種力量其實一直在滲入大量的網站和頁面,我們通常看不到它們,而且它們通常也很蠻橫,大部分人甚至不知道它的存在,大家不要誤會,其實我說得是搜索引 擎爬蟲和機器人。每天,上百個這樣的爬蟲會出來對網站進行快速的搜索。不管是不是google打算對整個網絡進行索引,還是spam機器人打算收集大量的email地址,通常它們這樣的尋找是漫無目的的。作爲網站擁有者,我們可以通過一個叫做robots.txt的文件來控制哪些動作是機器人可以做的。
創建robots.txt文件

好,現在我們開始行動。創建一個叫robots.txt的文本文件,請確保它的文件名是 正確的。該文件必須上傳到在您的網站的根目錄下,而不是二級目錄下(例如,應該是http://www.mysite.com,而不是http: //www.mysite.com/stuff),只有滿足以上兩點,即文件名正確和路徑正確,搜索引擎纔會根據該文件中的規則工作,否則robots.txt僅僅只是個常規文件而已,沒有任何作用。
現在,你已經知道如果這個文件該如何命名,以及應該把它上傳在何處,接下來你會學習在這個文件中鍵入命令,搜索引擎會遵循一個叫做“機器人排除協議”(Robots Exclusion Protocol)的協議。其實,它的格式很簡單,並且能夠滿足大多數的控制需要。首先是一行USERAGENT用來識別爬蟲類型,緊跟着的是一行或者多行DISALLOW,這些行是用來限制爬蟲訪問網站的一些部分的。
1) robots.txt基本設置

User-agent: *
Disallow: /

根據以上的聲明,所有的爬蟲(這裏用*表示出來)均不允許對您的網站的任何部分進行索引,這裏的/表示所有頁面。通常情況下這不是我們需要的,但這裏僅僅是讓大家有個概念而已。
2) 現在讓我們做一些小小的改動。儘管每個站長都喜歡Google,但是你可能不希望Google的鏡像機器人挖掘你的網站,也不希望它把你的網站的鏡像放在網上,實現在線搜索,如果僅僅是爲了節省你的網站所在的服務器的帶寬,下面的聲明可以做到這一點

User-agent: Googlebot-Image
Disallow: /

3) 以下代碼不允許任何一個搜索引擎和機器人挖掘目錄和頁面信息

User-agent: *
Disallow: /cgi-bin/
Disallow: /privatedir/
Disallow: /tutorials/blank.htm

4) 你還可以對多個機器人設置不同的目標,看看下面的代碼

User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /cgi-bin/
Disallow: /privatedir/

這個設置很有趣,這裏我們禁止了所有的搜索引擎對於我們的網站的挖掘操作,除了google,在這裏Google被允許訪問除了/cgi-bin/和/privatedir/以外的所有站點。這裏說明,規則是可以定製的,但不是繼承而來的。
5) 有另外一種使用Disallow的方法:即允許訪問網站所有內容,其實只要冒號後不輸入任何東西就可以了

User-agent: *
Disallow: /
User-agent: ia_archiver
Disallow:

在這裏,除了alex以外的所有爬蟲都不允許搜索我們的網站
6)最後,一些爬蟲現在支持Allow規則,最著名的就是Google。正如這個規則的名字所說,"Allow:"允許你精確的控制那些文件或者文件夾是可以 被訪問的。然而,這個文件目前還不是robots.txt協議的組成部分,所以我建議只有在必須使用時才使用它,因爲一些不夠聰明的爬蟲可能認爲它是錯誤 的。
下面的內容來自於Google's的FAQs for webmasters,如果你希望除了Google以外的爬蟲都不挖掘你的網站,那麼以下的代碼是做好的選擇

User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章