Robots協議(也稱爲爬蟲協議、機器人協議等)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
Robots作用:優化蜘蛛爬行提高爬行效率,減小帶寬消耗,防止雙收錄
查看網站是否有robots.txt,可以在瀏覽器輸入網址/robots.txt進行查看
如何在自己的網站設置robots.txt
Robots.txt語法詳解
在冒號後面要加一個空格,否則不生效!
禁止搜索引擎收錄動態的URL:Disallow: *?*
例如網站後臺不想被收錄,可以這樣寫:Disallow: /adm*
允許收錄html後綴的頁面應該怎麼寫:Allow: .html$
網站案例:
可以使用百度站長平臺去檢查robots.txt是否有效