robots.txt文件的格式

原創

2020-02-21 13:31

"robots.txt"文件包含一條或更多的記錄，這些記錄通過空行分開（以CR,CR/NL, or NL作爲結束符），每一條記錄的格式如下所示：
　　"<field>:<optional space><value><optionalspace>"
　　在該文件中可以使用#進行註解，具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始，後面加上若干Disallow和Allow行,詳細情況如下：
　　User-agent:
　　該項的值用於描述搜索引擎robot的名字。在"robots.txt"文件中，如果有多條User-agent記錄說明有多個robot會受到"robots.txt"的限制，對該文件來說，至少要有一條User-agent記錄。如果該項的值設爲*，則對任何robot均有效，在"robots.txt"文件中，"User-agent:*"這樣的記錄只能有一條。如果在"robots.txt"文件中，加入"User-agent:SomeBot"和若干Disallow、Allow行，那麼名爲"SomeBot"只受到"User-agent:SomeBot"後面的 Disallow和Allow行的限制。
　　Disallow:
　　該項的值用於描述不希望被訪問的一組URL，這個值可以是一條完整的路徑，也可以是路徑的非空前綴，以Disallow項的值開頭的URL不會被 robot訪問。例如"Disallow:/help"禁止robot訪問/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"則允許robot訪問/help.html、/helpabc.html，不能訪問/help/index.html。"Disallow:"說明允許robot訪問該網站的所有url，在"/robots.txt"文件中，至少要有一條Disallow記錄。如果"/robots.txt"不存在或者爲空文件，則對於所有的搜索引擎robot，該網站都是開放的。
　　Allow:
　　該項的值用於描述希望被訪問的一組URL，與Disallow項相似，這個值可以是一條完整的路徑，也可以是路徑的前綴，以Allow項的值開頭的URL 是允許robot訪問的。例如"Allow:/hibaidu"允許robot訪問/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個網站的所有URL默認是Allow的，所以Allow通常與Disallow搭配使用，實現允許訪問一部分網頁同時禁止訪問其它所有URL的功能。
　　使用"*"and"$"：
　　Baiduspider支持使用通配符"*"和"$"來模糊匹配url。
　　"$" 匹配行結束符。
　　"*" 匹配0或多個任意字符。
　　注：我們會嚴格遵守robots的相關協議，請注意區分您不想被抓取或收錄的目錄的大小寫，我們會對robots中所寫的文件和您不想被抓取和收錄的目錄做精確匹配，否則robots協議無法生效。

c3212254

發佈了0 篇原創文章 · 獲贊 4 · 訪問量 7萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

robots.txt文件的格式

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

Python 將PowerPoint (PPT/PPTX) 轉爲HTML

SQL優化-20231016

友情鏈接交換的方法、標準、原則以及注意事項

百度網站優化排名下降的原因總結

尋找友情鏈接的幾種方法

網站改版工具如何使用

網站站內優化四大技巧

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結