介紹
robots是網站跟爬蟲間的協議,用簡單直接的txt格式文本方式告訴對應的爬蟲被允許的權限,也就是說robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的範圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。
配置
該配置可以管理我們想要搜索引擎爬取的內容,Allow表示允許被訪問的,Disallow是不允許的意思。注意後面兩個Sitemap就是網站地圖了。而網站地圖前面說了是給爬蟲用的。這裏配置在robots中。可參考如下配置:
# 允許所有用戶代理的瀏覽器爬蟲進行訪問(爬起數據)
User-agent: *
# 允許訪問的內容
Allow: /
Allow: /2019/
Allow: /archives/
Allow: /categories/
Allow: /page/
Allow: /photos/
Allow: /tags/
# 不允許訪問的內容
Disallow: /assets/
Disallow: /fonts/
Disallow: /img/
Disallow: /js/
Disallow: /music/
Disallow: /css/
Disallow: /*.js
Disallow: /*.css
# 網站地圖Sitemap
Sitemap: https://www.yansheng.xyz/sitemap.xml
Sitemap: https://www.yansheng.xyz/baidusitemap.xml
進入搜索引擎管理平臺更新robots
Google Search Console: https://www.google.com/webmasters/tools/home?hl=zh-CN
百度站長平臺: http://zhanzhang.baidu.com/
robots.txt 生成器
配置相關參數,自動生成robots內容的網站:
文章首發於:hexo+yilia添加添加robots配置