限制bing等搜索引擎頻繁抓取 - 蜘蛛爬行頻率和次數

原創

2022-05-20 13:56

User-agent:msnbot

Visit-time:0855-1700
說明:指定每天允許BING蜘蛛採集的時間段，格式爲mmss-mmss，例如0800-1700，即限制BING蜘蛛08:00-17:00訪問。

User-agent:msnbot
Request-rate:1/5 0900-1045
說明：限制BING蜘蛛在允許的時間段內(0900-1045)隔多少秒採集一次網頁，例如1/5 0900-1055，即限制BING蜘蛛90:00-10:55訪問，且每5秒訪問一次。

User-agent:msnbot
Crawl-delay:3600
說明:限制BING蜘蛛兩次抓取的間隔時間，單位爲秒。建議在蜘蛛的抓取頻率過高時，可以制定蜘蛛抓取時間間隔，來降低服務器的負擔,減少流量的不必要流失。

國內的搜索引擎蜘蛛

百度蜘蛛：baiduspider

搜狗蜘蛛：sogou spider

有道蜘蛛：YodaoBot和OutfoxBot

搜搜蜘蛛： Sosospider

國外的搜索引擎蜘蛛

google蜘蛛： googlebot

yahoo蜘蛛：Yahoo！ Slurp

alexa蜘蛛：ia_archiver

bing蜘蛛（MSN）：msnbot

robots.txt內容格式非常簡單，用文本文件的每一行代表一個約定。

• User-Agent：適用下列規則的漫遊器

• Allow：充許被抓取的網頁

• Disallow：要攔截的網頁

Robots.txt的兩個常用符號

“*”：匹配0或多個任意字符（也有所有的意思）

“$”：匹配行結束符。

禁止某一蜘蛛抓取：

User-agent：蜘蛛名（上面介紹得有）

Disallow： /

只充許某一蜘蛛抓取：

User-agent：蜘蛛名（上面介紹得有）

Disallow：

User-agent： *

Disallow： /

robots.txt擴展協議

robots協議中除allow，disallow外，其擴展協議中還有Request-rate，Crawl-delay，Visit-time等，可以通過率這些協議來限制蜘蛛訪問的頻率，訪問的時間等。

一、Crawl-delay 這個協議可以指定蜘蛛兩次抓取時間的間隔值。

語法：Crawl-delay:XX

"XX"，是指兩間抓取的間隔時間，單位爲秒。如果蜘蛛的抓取頻率太高可以指定這個值，來減輕服務器的負擔。

二、Visit-time 指定蜘蛛的訪問時間。

語法：Visit-time:0930-1630

開頭的文本行指定每天允許網絡蜘蛛採集的時間段，格式爲mmss-mmss，例如0930-1630

三、Request-rate 指定採集的頻率

語法：Request-rate:1/5 0600-0845

指定同一個網絡蜘蛛每多少秒採集一次網頁和採集時間段，例如1/5 0600-0845。

四、禁止指定類型後綴的文件抓取

Disallow: .jpg$ 禁止抓取的格式

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

Disallow: .jpg$ 禁止抓取的格式

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

另外，在網頁中增加名字爲“robots”的meta標籤，也可以讓某些網絡蜘蛛不採集這一頁。不過，這也只是某些網絡蜘蛛認同，不是大家都認同的標準。示例如下。

==============================================================

實例

例1.禁止所有搜索引擎訪問網站的任何部分

User-agent: *

Disallow: /

例2.允許所有的robot訪問 (或者也可以建一個空文件 "/robots.txt")

User-agent: *

Allow: /

另一種寫法是

User-agent: *

Disallow:

例3. 僅禁止Baiduspider訪問您的網站

User-agent: Baiduspider

Disallow: /

例4. 僅允許Baiduspider訪問您的網站

User-agent: Baiduspider

Allow: /

例5. 禁止spider訪問特定目錄

在這個例子中，該網站有三個目錄對搜索引擎的訪問做了限制，即robot不會訪問這三個目錄。需要注意的是對每一個目錄必須分開聲明，而不能寫成 "Disallow: /cgi-bin/ /tmp/"。

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

例6. 允許訪問特定目錄中的部分url

User-agent: *

Allow: /cgi-bin/see

Allow: /tmp/hi

Allow: /~joe/look

例7. 使用"*"限制訪問url

禁止訪問/cgi-bin/目錄下的所有以".htm"爲後綴的URL(包含子目錄)。

User-agent: *

Disallow: /cgi-bin/*.htm

例8. 使用"$"限制訪問url

僅允許訪問以".htm"爲後綴的URL。

User-agent: *

Allow:/ .htm$

例9. 禁止訪問網站中所有的動態頁面

User-agent: *

Disallow: /*?*

例10. 禁止Baiduspider抓取網站上所有圖片

僅允許抓取網頁，禁止抓取任何圖片。

User-agent: Baiduspider

Disallow: /.jpg$

Disallow: / .jpeg$

Disallow:/ .gif$

Disallow:/ .png$

Disallow: /.bmp$

例11. 僅允許Baiduspider抓取網頁和。gif格式圖片

允許抓取網頁和gif格式圖片，不允許抓取其他格式圖片

User-agent: Baiduspider

Allow: .gif$

Disallow: /.jpg$

Disallow:/ .jpeg$

Disallow:/ .png$

Disallow: /.bmp$

例12. 僅禁止Baiduspider抓取。jpg格式圖片

User-agent: /Baiduspider

Disallow:/ .jpg$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

限制bing等搜索引擎頻繁抓取 - 蜘蛛爬行頻率和次數

User-agent:msnbot

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

.NET週刊【5月第2期 2024-05-12】

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（一）部署K8s

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（三）數據卷掛載NFS（網絡文件系統）

根據域名查詢服務器的ip地址

Linux排查磁盤大文件或大目錄

產品設計基礎

數據庫邏輯設計之三大範式

WordPress數據表結構

git修改提交歷史的用戶名和郵箱

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結