【Tips篇】爬蟲

原創

2019-02-22 22:57

配圖本來計劃選擇一種爬蟲的，可是看到百度搜到的圖片好惡心，所以作罷，還是還原網絡世界真實的爬蟲。

爬蟲應該是隨着搜索引擎技術出現的。爬蟲技術主要是用來抓取萬維網網頁內容的主要技術，被爬到的網頁會被收錄進入搜索引擎。一般情況下，企業作爲門戶網站的話是非常希望爬蟲爬到，然後收錄進去，這樣用戶搜索的時候就會被顯示出來，一方面隨着搜索技術飛速發展，www業務飛速發展，各種各樣的爬蟲，***到互聯網中，爬蟲對於某些網站來說是一種流量的浪費。比如某寶是堅決不讓某度來爬取的，一方面是要保障流量來源，另一方面要保障流量正常，因爲www網站中惡意爬蟲會影響正常流量訪問。

於是robots協議應運而生。

“引用”Robots協議（也稱爲爬蟲協議、機器人協議等）的全稱是“網絡爬蟲排除標準”（Robots Exclusion Protocol），網站通過Robots協議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取。

防止spider任意抓取：（禁止任何爬蟲進行抓取網站的任何目錄）

spider user-agent：*

disallow：/

這些規則是支持正則的，所以會非常靈活。對於業務型的頁面可以設置爲不可被抓取。

還有一點最重要的：就是要相識的robots協議生效，就必須web訪問的時候可以訪問到robots.txt，並且robots位於網站的根目錄下。例如：

www.taobao.com/robots.txt就可以看到淘寶的robots協議。

最後一點，如果你不想要在實名網站留下一些huai的證據，那麼也不要寄希望於網站禁止爬蟲，那麼請注意保持良好的上網行爲。

支付寶-打賞：

微信-打賞：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【Tips篇】爬蟲

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

【Tips篇】爬蟲

vsftp之配置管理企業ftp服務

Centos5.6入門學習003之Cenots環境初始化

centos5.6入門學習001

linux複習題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結