robots.txt的寫法 你瞭解多少

 1、什麼是robots.txt文件
     搜索引擎有自己的搜索習慣,當它對一個網站進行搜索時,哪些目錄和文件要看,哪些不用看,它有自己的算法。我們也可以自己建立一個robots.txt文件,告訴搜索引擎的機器人哪些可以被收錄,哪些不需要收錄。這樣可以節約自己網站的資源,提高被搜索引擎收錄的效率。

2、robots.txt放置位置
    robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫。

3、robots相關語法
    1)User-agent: 適用下列規則的漫遊器(搜索引擎)
該項的值用於描述搜索引擎robot的名字。在robots.txt文件中,如果有多條User-agent記錄,就說明有多個robot會受到robots.txt的限制,對該文件來說,至少要有一條User-agent記錄。如果該項的值設爲*,則對任何robot均有效。
      ● Google爬蟲名稱: Googlebot
      ● 百度(Baidu)爬蟲名稱:Baiduspider
      ● 雅虎(Yahoo)爬蟲名稱:Yahoo Slurp
      ● 有道(Yodao)蜘蛛名稱:YodaoBot
      ● 搜狗(sogou)蜘蛛名稱:sogou spider
      ● MSN的蜘蛛名稱(微軟最新搜索引擎Bing蜘蛛名也是這個):Msnbot
   
    2)Disallow: 拒絕訪問的目錄或文件
該項的值用於描述不希望被訪問的一組URL,這個值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項的值開頭的URL不會被robot訪問。
     例如:
         Disallow:/seo.html       表示禁止robot訪問文件 /seo.html
     
    3)Allow:允許訪問的目錄或文件
     該項的值用於描述希望被訪問的一組URL,與Disallow項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項的值開頭的URL是允許robot訪問的。
      例如:
           Allow:/hibaidu/         表示允許robot訪問目錄 /hibaidu/
   
     4)使用通配符"*"和"$":
        $   匹配行結束符。
      *   匹配0或多個任意字符。
          ?   匹配1個任意字符

     5)robots.txt文件裏還可以直接包括在sitemap文件的鏈接。
        Sitemap:http://www.cnbaoguan.com/sitemaps.xml

4、robots.txt文件用法舉例
     1)、攔截所有的機器人訪問網站
       User-agent: *
       Disallow: /

     2)、允許所有的機器人訪問網站
       User-agent: *
       Allow: /
     3)、禁止所有機器人訪問特定目錄:
       User-agent: *
       Disallow: /public/
       Disallow: /images/
       Disallow: /temp/
       Disallow: /include/

     4)、禁止特定搜索引擎蜘蛛訪問特定目錄(這裏我們以百度蜘蛛爲例說明)
       User-agent: Baiduspider
       Disallow: /test/
         上面的robots.txt語法示例的意思是禁止百度蜘蛛爬行根目錄下的test目錄

     5)、僅禁止Baiduspider抓取.jpg格式圖片
       User-agent: Baiduspider
       Disallow: .jpg$

6)、僅允許訪問以".htm"爲後綴的URL。
       User-agent: *
       Allow: .htm$
       Disallow: /

7)、禁止訪問網站中所有的動態頁面
       User-agent: *
       Disallow: /*?*

5、常見robots.txt錯誤
1)、把多個禁止命令放在一行中:
   錯誤地寫法
   Disallow: /css/ /cgi-bin/ /images/
   正確的寫法
   Disallow: /css/
   Disallow: /cgi-bin/
   Disallow: /images/

2)、表示目錄時,忘記了斜槓/
   錯誤的寫法
   User-agent: Baiduspider
   Disallow: css
   正確的寫法
   User-agent: Baiduspider
   Disallow: /css/

6、robots meta網頁標籤寫法
Robots META標籤則主要是針對一個個具體的頁面。和其他的META標籤(如使用的語言、頁面的描述、關鍵詞等)一樣,Robots META標籤也是放在頁面的<head></head>中,專門用來告訴搜索引擎ROBOTS如何抓取該頁的內容。
Robots META標籤的寫法:
Robots META標籤中沒有大小寫之分,name=”Robots”表示所有的搜索引擎,可以針對某個具體搜索引擎寫爲name=”BaiduSpider”。 content部分有四個指令選項:index、noindex、follow、nofollow,指令間以“,”分隔。
INDEX 指令告訴搜索機器人抓取該頁面;
FOLLOW 指令表示搜索機器人可以沿着該頁面上的鏈接繼續抓取下去;
Robots Meta標籤的缺省值是INDEX和FOLLOW,只有inktomi除外,對於它,缺省值是INDEX,NOFOLLOW。
這樣,一共有四種組合:
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
其中
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以寫成<META NAME="ROBOTS" CONTENT="ALL">;
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以寫成<META NAME="ROBOTS" CONTENT="NONE">
目前看來,絕大多數的搜索引擎機器人都遵守robots.txt的規則,而對於Robots META標籤,目前支持的並不多,但是正在逐漸增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE還增加了一個指令“archive”,可以限制GOOGLE是否保留網頁快照。例如:
<META NAME="googlebot" CONTENT="index,follow,noarchive">
表示抓取該站點中頁面並沿着頁面中鏈接抓取,但是不在GOOLGE上保留該頁面的網頁快照。

感謝原文作者

原文鏈接:http://www.seowhy.com/bbs/thread-240573-1-1.html

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章