限制bing等搜索引擎频繁抓取 - 蜘蛛爬行频率和次数

原創

2022-05-20 13:56

User-agent:msnbot

Visit-time:0855-1700
说明:指定每天允许BING蜘蛛采集的时间段，格式为mmss-mmss，例如0800-1700，即限制BING蜘蛛08:00-17:00访问。

User-agent:msnbot
Request-rate:1/5 0900-1045
说明：限制BING蜘蛛在允许的时间段内(0900-1045)隔多少秒采集一次网页，例如1/5 0900-1055，即限制BING蜘蛛90:00-10:55访问，且每5秒访问一次。

User-agent:msnbot
Crawl-delay:3600
说明:限制BING蜘蛛两次抓取的间隔时间，单位为秒。建议在蜘蛛的抓取频率过高时，可以制定蜘蛛抓取时间间隔，来降低服务器的负担,减少流量的不必要流失。

国内的搜索引擎蜘蛛

百度蜘蛛：baiduspider

搜狗蜘蛛：sogou spider

有道蜘蛛：YodaoBot和OutfoxBot

搜搜蜘蛛： Sosospider

国外的搜索引擎蜘蛛

google蜘蛛： googlebot

yahoo蜘蛛：Yahoo！ Slurp

alexa蜘蛛：ia_archiver

bing蜘蛛（MSN）：msnbot

robots.txt内容格式非常简单，用文本文件的每一行代表一个约定。

• User-Agent：适用下列规则的漫游器

• Allow：充许被抓取的网页

• Disallow：要拦截的网页

Robots.txt的两个常用符号

“*”：匹配0或多个任意字符（也有所有的意思）

“$”：匹配行结束符。

禁止某一蜘蛛抓取：

User-agent：蜘蛛名（上面介绍得有）

Disallow： /

只充许某一蜘蛛抓取：

User-agent：蜘蛛名（上面介绍得有）

Disallow：

User-agent： *

Disallow： /

robots.txt扩展协议

robots协议中除allow，disallow外，其扩展协议中还有Request-rate，Crawl-delay，Visit-time等，可以通过率这些协议来限制蜘蛛访问的频率，访问的时间等。

一、Crawl-delay 这个协议可以指定蜘蛛两次抓取时间的间隔值。

语法：Crawl-delay:XX

"XX"，是指两间抓取的间隔时间，单位为秒。如果蜘蛛的抓取频率太高可以指定这个值，来减轻服务器的负担。

二、Visit-time 指定蜘蛛的访问时间。

语法：Visit-time:0930-1630

开头的文本行指定每天允许网络蜘蛛采集的时间段，格式为mmss-mmss，例如0930-1630

三、Request-rate 指定采集的频率

语法：Request-rate:1/5 0600-0845

指定同一个网络蜘蛛每多少秒采集一次网页和采集时间段，例如1/5 0600-0845。

四、禁止指定类型后缀的文件抓取

Disallow: .jpg$ 禁止抓取的格式

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

Disallow: .jpg$ 禁止抓取的格式

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

另外，在网页中增加名字为“robots”的meta标签，也可以让某些网络蜘蛛不采集这一页。不过，这也只是某些网络蜘蛛认同，不是大家都认同的标准。示例如下。

==============================================================

实例

例1.禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

例2.允许所有的robot访问 (或者也可以建一个空文件 "/robots.txt")

User-agent: *

Allow: /

另一种写法是

User-agent: *

Disallow:

例3. 仅禁止Baiduspider访问您的网站

User-agent: Baiduspider

Disallow: /

例4. 仅允许Baiduspider访问您的网站

User-agent: Baiduspider

Allow: /

例5. 禁止spider访问特定目录

在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明，而不能写成 "Disallow: /cgi-bin/ /tmp/"。

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

例6. 允许访问特定目录中的部分url

User-agent: *

Allow: /cgi-bin/see

Allow: /tmp/hi

Allow: /~joe/look

例7. 使用"*"限制访问url

禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

User-agent: *

Disallow: /cgi-bin/*.htm

例8. 使用"$"限制访问url

仅允许访问以".htm"为后缀的URL。

User-agent: *

Allow:/ .htm$

例9. 禁止访问网站中所有的动态页面

User-agent: *

Disallow: /*?*

例10. 禁止Baiduspider抓取网站上所有图片

仅允许抓取网页，禁止抓取任何图片。

User-agent: Baiduspider

Disallow: /.jpg$

Disallow: / .jpeg$

Disallow:/ .gif$

Disallow:/ .png$

Disallow: /.bmp$

例11. 仅允许Baiduspider抓取网页和。gif格式图片

允许抓取网页和gif格式图片，不允许抓取其他格式图片

User-agent: Baiduspider

Allow: .gif$

Disallow: /.jpg$

Disallow:/ .jpeg$

Disallow:/ .png$

Disallow: /.bmp$

例12. 仅禁止Baiduspider抓取。jpg格式图片

User-agent: /Baiduspider

Disallow:/ .jpg$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

限制bing等搜索引擎频繁抓取 - 蜘蛛爬行频率和次数

User-agent:msnbot

nginx快速分析日誌並找出攻擊IP

Linux排查磁盤大文件或大目錄

產品設計基礎

數據庫邏輯設計之三大範式

WordPress數據表結構

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結