搜索引擎爬蟲程序一覽表大全

高<nobr>強度</nobr>爬蟲程序
Baiduspider+(+http://www.baidu.com/search/spider.htm)
百度爬蟲
高強度爬蟲,有時會從多個IP地址啓動多個爬蟲程序!
由於算法問題,百度爬蟲對相同頁面會多次發出請求(尤其是首頁),令人煩惱。
推廣<nobr>效果</nobr>好。
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
雅虎爬蟲,分別是雅虎中國和美國總部的爬蟲
高強度爬蟲,有時會從多個IP地址啓動多個爬蟲程序!
比較規範的爬蟲,看參考其網址,設定爬蟲訪問間隔。(但需要考慮同時出現多個yahoo爬蟲)
推廣效果尚可。
iaskspider/2.0(+http://iask.com/help/help_index.html)
Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
新浪愛問爬蟲
算法差,大量掃描無實際意義的頁面,對動態鏈接網站負擔很大
推廣效果差。
sogou spider
搜狗爬蟲
算法差,大量掃描無實際意義的頁面,對動態鏈接網站負擔很大
推廣效果差。


中等強度爬蟲程序
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.<nobr>google</nobr>.com/bot.html)
Google爬蟲
算法優秀,多爲訪問有實際內容的頁面
推廣效果好。
Mediapartners-Google/2.1
google點擊<nobr>廣告</nobr>爬蟲
特點未知
OutfoxBot/0.5 (for internet experiments; http://; <script language="JavaScript" type="text/javascript"> </script>[email protected][email protected] <noscript></noscript>)
網易爬蟲
其搜索算法需要改進
推廣效果差。
ia_archiver
Alexa排名爬蟲
作用未知


其他搜索引擎的爬蟲
msnbot/1.0 (+http://search.msn.com/msnbot.htm)
MSN爬蟲
特點未知
msnbot-media/1.0 (+http://search.msn.com/msnbot.htm)
(歡迎補充資料)
特點未知
Mozilla/4.0(compatible; MSIE 5.0; Windows 98; DigExt)
Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)
Mozilla/4.0 (compatible; MSIE 5.0; <nobr>Windows NT</nobr>; DigExt; DTS Agent
Mozilla/4.0 (compatible; MSIE 5.00; Windows 98; DigExt)
(歡迎補充資料)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)
名字上看來是Qihoo的
特點未知
Gigabot
Gigabot/2.0 (http://www.gigablast.com/spider.html)
Gigabot搜索引擎爬蟲。已被google收購?(歡迎補充資料)
eApolloBot/1.0 (eApollo search engine robot; http://www.eapollo.com; eapollo at global-opto dot com)
lanshanbot/1.0
據說是中搜爬蟲。(歡迎補充資料)
iearthworm/1.0, <script language="JavaScript" type="text/javascript"> </script>[email protected][email protected] <noscript></noscript>
TMCrawler
WebNews http.pl


RSS掃描器
\rss.asp Mozilla/6.0 (MSIE 6.0; Windows NT 5.1;Foxmail/MILOWU)
這是用foxmail6.0訂閱了你的rss
\rss.asp Feedfetcher-Google; (+http://www.google.com/feedfetcher.html)
google的rss搜索掃描器
\rss.asp feedsky_spider http://www.feedsky.com
一款rss掃描器,有興趣者進入此網站添加您的rss

 

轉載自:CSDN

發佈了5 篇原創文章 · 獲贊 0 · 訪問量 4754
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章