robots.txt防爬虫使用

robots.txt文件用法举例：

首先来看看robots.txt文件的使用位置情况，如github的robots使用情况。

下面参考https://blog.csdn.net/cc1254383393/article/details/48753961/

1.robots.txt文件是什么

robots.txt是一个纯文本文件，是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。每个站点最好建立一个robots.txt文件，对seo更友好。每当搜索蜘蛛来寻找并不存在的robots.txt文件时，服务器将在日志中记录一条404错误，所以你应该在网站中添加一个robots.txt（即使这个robots.txt文件只是一个空文件）。

2.robots.txt的写法（语法）

1）User-agent: 该项的值用于描述搜索引擎蜘蛛的名字。如果该项的值设为*，则该协议对任何机器人均有效。

2）Disallow: 该项的值用于描述不希望被访问到的一个URL，一个目录或者整个网站。以Disallow 开头的URL 均不会被搜索引擎蜘蛛访问到。任何一条Disallow 记录为空，说明该网站的所有部分都允许被访问。

3）用法举例

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

例2. 允许所有的robot访问 (或者也可以建一个空文件 "/robots.txt" file)

User-agent: *

Disallow:

例3. 禁止某个搜索引擎的访问

User-agent: BadBot

Disallow: /

例4. 允许某个搜索引擎的访问

User-agent: baiduspider

Disallow:

User-agent: *

Disallow: /

例5.一个简单例子

在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即搜索引擎不会访问这三个目录。

需要注意的是对每一个目录必须分开声明，而不要写成 "Disallow: /cgi-bin/ /tmp/"。

User-agent:后的*具有特殊的含义，代表"any robot"，所以在该文件中不能有"Disallow: /tmp/*" or "Disallow:*.gif"这样的记录出现.

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

3.robots.txt文件带来的风险以及解决

　　robots.txt 同时也带来了一定的风险：其也给攻击者指明了网站的目录结构和私密数据所在的位置。设置访问权限，对您的隐私内容实施密码保护，这样，攻击者便无从进入。

4.注意事项：

1）robots.txt必须放置在站点的根目录下，而且文件名必须全部小写。

2）不要在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取。

3）为安全考虑，建议很重要的文件夹不要写在robots.txt文件中，或你只建一个空白robots.txt文件，在不要访问的目录中加入其它的技术。

https://blog.csdn.net/cc1254383393/article/details/48753961/这篇博客内容写得很详细，有兴趣的可以阅读一下该篇博客。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

robots.txt防爬虫使用

robots.txt防爬蟲使用

qemu仿真可執行二進制文件時出現錯誤：/lib/ld-uClibc.so.0: No such file or directory的解決方法

XCTF攻防世界練習區-web題-backup

XCTF攻防世界練習區-web題-backup

sorted、sort、reverse使用小結一下（總是用錯和用混淆）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結