robots.txt聲明網站中哪些目錄不讓搜索引擎收錄,執行順序從上到下,robots.txt寫法,添加sitemap鏈接,什麼是robots協議對seo的影響。sitemap是谷歌創造出來的,搜索引擎會優先讀取sitemap.xml文件,如果沒有就逐個抓取URL。
基本語法
User-agent:定義禁止搜索引擎名字。百度(Baiduspide)、谷歌(Googlebot)、360(360Spider)等。*號代表全部搜索引擎 Disallow:不允許收錄 Allow:允許收錄 #:註釋
全站屏蔽所有蜘蛛
網站改版之前,爲了避免蜘蛛抓取錯誤或臨時的鏈接,可以採用全站屏蔽蜘蛛的操作,在根目錄建立robots.txt,添加如下內容:
User-agent:* Disallow:/
屏蔽某個目錄、文件
案例:屏蔽所有蜘蛛抓取根目錄下的inc文件夾及裏面的所有內容,根目錄下的wap目錄下的index.html文件。robots.txt文件添加如下內容:
User-agent:* Disallow:/inc/ Disallow:/wap/index.html
屏蔽某個目錄,但抓取目錄下的文件或文件夾
①案例:屏蔽所有蜘蛛抓取根目錄下的wap文件夾,但抓取裏面後綴名爲html的文件
User-agent:* Disallow:/wap/ Allow:/wap/*.html
注意:上面的寫法,wap帶“/”代表根目錄下的wap目錄下的內容。並不會禁止比如根目錄下waptest的文件夾及文件夾所有內容。
②案例:禁止抓取根目錄下所有前面帶“wap”字符的文件夾及文件
User-agent:* Disallow:/wap
禁止瞭如:/wap/,/wap/12.html,/waptest/,/wapabc.html。
③案例:保護隱私文件夾或文件
在別讓網站的robots成爲最大的安全漏洞一文說到,禁止搜索引擎抓取某些私密文件夾的同時,也暴露了網站的目錄結構,猜出網站後臺管理系統、後臺等。
比如:禁止抓取/include,就可以寫成如下,當然前提是你的根目錄裏面沒有前面帶這些字符的文件夾或文件給蜘蛛抓取。
User-agent:* Disallow:/inc
屏蔽動態URL
網站有些動態頁面可能會和靜態頁面相同,造成重複收錄。
①案例:用robots屏蔽動態URL
User-agent:* Disallow:/*?*
②案例:僅允許訪問“.html”爲後綴的URL
User-agent:* Allow:.html$ Disallow:/
屏蔽死鏈接
網站改版、刪除文章後,原來的URL如果已經被搜索引擎索引,出現404錯誤。一般的做法如下:
①查看網站日誌,找出這些死鏈,用百度提交死鏈工具提交,慢慢的會刪除這些死鏈;
②如果這個鏈接已經更換,也可以用301跳轉到新的鏈接,301跳轉後原頁面和新頁面處理辦法;
③robots禁止蜘蛛抓取死鏈,寫法同上,最好帶完整路徑
User-agent:* Disallow:http://www.vi586.com/web/22.html
屏蔽不參與排名的頁面鏈接
比如會員中心、登陸界面、聯繫我們等。這些雖然有實際用途,蜘蛛一樣會爬取這些頁面鏈接,這些頁面也會分權,因此爲了集中權重,一些完全不參與排名的頁面應該用robots屏蔽。也可以在該頁面的</head>之前添加<meta>聲明,指向該頁面的鏈接加上nofollow標籤。
<meta name="robots" content="noindex,nofollow"/> <a rel="nofollow" href="/member/login">登陸</a>
sitemap索引在robots.txt的位置
sitamap索引的位置最好放在robots.txt的最下面,蜘蛛先遵循前面的原則,再按照網站地圖爬取。
Sitemap: http://www.vi586.com/sitemap.xml Sitemap: http://www.vi586.com/sitemap.html