爬蟲系統以及robots協議

原創

RexingLeung

2020-04-22 21:21

爬蟲

爬蟲，是一種自動獲取網頁內容的程序。是搜索引擎的重要組成部分，百度會定期去爬取網頁，做語義化分析，分析出對應數據庫裏面的索引，
因此搜索引擎優化很大程度上就是針對爬蟲而做出的優化。只要爬蟲爬出來的東西給力，用戶搜索出來的東西給很有用

robots協議

搜索引擎裏面有一個很重要的東西robots協議，就是一個正常的文本文件，只要建一個txt文件，名爲robots.txt，放到網站的根目錄下，robots.txt是爬蟲查看的第一個文件，然後分析robots.txt，定義規則那些東西不給爬，這個是一個網絡認可的協議，如果違反這個協議，就會 違反法律
robots.txt是一個文本文件，robots.txt是一個協議，不是_個命令。robots.txt是爬蟲要查看的第一個文件。robots.txt文件告訴爬蟲在服務器上什麼文件是可以被查看的，搜索機器人就會按照該文件中的內容來確定訪問的範圍。

robots.txt文件語法

字段名	取值	說明
User-agent	*	這裏的代表的所有的搜索引擎種類，是一個通配符
Disallow	/admin/	這裏定義是禁止爬尋admin目錄下面的目錄
Disallow	/require/	這裏定義是禁止爬尋require目錄下面的目錄
Disallow	/ABC/	這裏定義是禁止爬尋ABC目錄下面的目錄
Disallow	/cgi-bin/*.htm	禁止訪問/cgi-bin/目錄下的所有以".htm"爲後綴的URL(包含子目錄)。
Disallow	/?	禁止訪問網站中所有包含問號 (?) 的網址
Disallow	/.jpg$	禁止抓取網頁所有的.jpg格式的圖片
Disallow	/ab/adc.html	禁止爬取ab文件夾下面的adc.html文件。
Allow	/cgi-bin/	這裏定義是允許爬尋cgi-bin目錄下面的目錄
Allow	/tmp	這裏定義是允許爬尋tmp的整個目錄
Allow	.htm$	僅允許訪問以".htm"爲後綴的URL。
Allow	.gif$	允許抓取網頁和gif格式圖片
Sitemap	網站地圖	告訴爬蟲這個頁面是網站地圖

例子

例子1：禁止任何爬蟲引擎爬取任何信息

在網站根目錄下的robots.txt添加如下代碼

User-agent: *
Disallow: /

例子2：禁止任何爬蟲引擎爬取任何信息

不允許百度爬蟲爬取

User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /

例子3：允許任何爬蟲爬取

只需在網站根目錄新建一個空的robots.txt文件即可

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

爬蟲系統以及robots協議

爬蟲

robots協議

robots.txt文件語法

例子

例子1：禁止任何爬蟲引擎爬取任何信息

例子2：禁止任何爬蟲引擎爬取任何信息

例子3：允許任何爬蟲爬取

CSS騷操作 --- 製作不同背景的字體

node異步函數類型

css裁剪屬性----clip-path

PHP操作數據庫及踩坑

深究我所不知道JavaScript變量提升hoisting

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結