限制bing等搜索引擎頻繁抓取 - 蜘蛛爬行頻率和次數

User-agent:msnbot

Visit-time:0855-1700
說明:指定每天允許BING蜘蛛採集的時間段,格式爲mmss-mmss,例如0800-1700,即限制BING蜘蛛08:00-17:00訪問。

User-agent:msnbot
Request-rate:1/5 0900-1045
說明:限制BING蜘蛛在允許的時間段內(0900-1045)隔多少秒採集一次網頁,例如1/5 0900-1055,即限制BING蜘蛛90:00-10:55訪問,且每5秒訪問一次。

User-agent:msnbot
Crawl-delay:3600
說明:限制BING蜘蛛兩次抓取的間隔時間,單位爲秒。建議在蜘蛛的抓取頻率過高時,可以制定蜘蛛抓取時間間隔,來降低服務器的負擔,減少流量的不必要流失。

國內的搜索引擎蜘蛛
 
百度蜘蛛:baiduspider
 
搜狗蜘蛛:sogou spider
 
有道蜘蛛:YodaoBot和OutfoxBot
 
搜搜蜘蛛: Sosospider
 
國外的搜索引擎蜘蛛
google蜘蛛: googlebot
 
yahoo蜘蛛:Yahoo! Slurp
 
alexa蜘蛛:ia_archiver
 
bing蜘蛛(MSN):msnbot
 
bing蜘蛛(MSN):msnbot
 
robots.txt內容格式非常簡單,用文本文件的每一行代表一個約定。
 
• User-Agent: 適用下列規則的漫遊器
 
• Allow: 充許被抓取的網頁
 
• Disallow: 要攔截的網頁
 
Robots.txt的兩個常用符號
 
“*”: 匹配0或多個任意字符(也有所有的意思)
 
“$”:匹配行結束符。
 
禁止某一蜘蛛抓取:
User-agent: 蜘蛛名(上面介紹得有)
 
Disallow: /
 
只充許某一蜘蛛抓取:
User-agent: 蜘蛛名(上面介紹得有)
 
Disallow:
 
User-agent: *
 
Disallow: /
 
robots.txt擴展協議
robots協議中除allow,disallow外,其擴展協議中還有Request-rate,Crawl-delay,Visit-time等,可以通過率這些協議來限制蜘蛛訪問的頻率,訪問的時間等。
 
一、Crawl-delay 這個協議可以指定蜘蛛兩次抓取時間的間隔值。
語法:Crawl-delay:XX
"XX",是指兩間抓取的間隔時間,單位爲秒。如果蜘蛛的抓取頻率太高可以指定這個值,來減輕服務器的負擔。
 
二、Visit-time 指定蜘蛛的訪問時間。
語法:Visit-time:0930-1630
開頭的文本行指定每天允許網絡蜘蛛採集的時間段,格式爲mmss-mmss,例如0930-1630
 
三、Request-rate 指定採集的頻率
語法:Request-rate:1/5 0600-0845
指定同一個網絡蜘蛛每多少秒採集一次網頁和採集時間段,例如1/5 0600-0845。
 
四、禁止指定類型後綴的文件抓取
 
Disallow: .jpg$ 禁止抓取的格式
Disallow: .jpeg$ 
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
Disallow: .jpg$ 禁止抓取的格式
Disallow: .jpeg$ 
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
 
另外,在網頁中增加名字爲“robots”的meta標籤,也可以讓某些網絡蜘蛛不採集這一頁。不過,這也只是某些網絡蜘蛛認同,不是大家都認同的標準。示例如下。
 
<meta name="robots" content="noindex,nofollow" />
==============================================================
 
實例
 
例1.禁止所有搜索引擎訪問網站的任何部分
User-agent: * 
Disallow: /
 
例2.允許所有的robot訪問 (或者也可以建一個空文件 "/robots.txt")
User-agent: * 
Allow: / 
另一種寫法是 
User-agent: * 
Disallow:
 
例3. 僅禁止Baiduspider訪問您的網站
User-agent: Baiduspider 
Disallow: /
 
例4. 僅允許Baiduspider訪問您的網站
User-agent: Baiduspider 
Allow: /
 
例5. 禁止spider訪問特定目錄 
在這個例子中,該網站有三個目錄對搜索引擎的訪問做了限制,即robot不會訪問這三個目錄。需要注意的是對每一個目錄必須分開聲明,而不能寫成 "Disallow: /cgi-bin/ /tmp/"。
User-agent: * 
Disallow: /cgi-bin/ 
Disallow: /tmp/ 
Disallow: /~joe/
 
例6. 允許訪問特定目錄中的部分url
User-agent: * 
Allow: /cgi-bin/see 
Allow: /tmp/hi 
Allow: /~joe/look
 
例7. 使用"*"限制訪問url 
禁止訪問/cgi-bin/目錄下的所有以".htm"爲後綴的URL(包含子目錄)。
User-agent: * 
Disallow: /cgi-bin/*.htm
 
例8. 使用"$"限制訪問url 
僅允許訪問以".htm"爲後綴的URL。
User-agent: * 
Allow:/ .htm$
 
例9. 禁止訪問網站中所有的動態頁面
User-agent: * 
Disallow: /*?*
 
例10. 禁止Baiduspider抓取網站上所有圖片 
僅允許抓取網頁,禁止抓取任何圖片。
User-agent: Baiduspider 
Disallow: /.jpg$ 
Disallow: / .jpeg$ 
Disallow:/ .gif$ 
Disallow:/ .png$ 
Disallow: /.bmp$
 
例11. 僅允許Baiduspider抓取網頁和。gif格式圖片 
允許抓取網頁和gif格式圖片,不允許抓取其他格式圖片
User-agent: Baiduspider 
Allow: .gif$ 
Disallow: /.jpg$ 
Disallow:/ .jpeg$ 
Disallow:/ .png$ 
Disallow: /.bmp$
 
例12. 僅禁止Baiduspider抓取。jpg格式圖片
User-agent: /Baiduspider 
Disallow:/ .jpg$
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章