爬蟲系統以及robots協議

爬蟲

爬蟲,是一種自動獲取網頁內容的程序。是搜索引擎的重要組成部分,百度會定期去爬取網頁,做語義化分析,分析出對應數據庫裏面的索引,
因此搜索引擎優化很大程度上就是針對爬蟲而做出的優化。只要爬蟲爬出來的東西給力,用戶搜索出來的東西給很有用

robots協議

搜索引擎裏面有一個很重要的東西robots協議,就是一個正常的文本文件,只要建一個txt文件,名爲robots.txt,放到網站的根目錄下,robots.txt是爬蟲查看的第一個文件,然後分析robots.txt,定義規則那些東西不給爬,這個是一個網絡認可的協議,如果違反這個協議,就會 違反法律
robots.txt是一個文本文件,robots.txt是一個協議,不是_個命令。robots.txt是爬蟲要查看的第一個文件。robots.txt文件告訴爬蟲在服務器上什麼文件是可以被查看的,搜索機器人就會按照該文件中的內容來確定訪問的範圍。

robots.txt文件語法

字段名 取值 說明
User-agent * 這裏的*代表的所有的搜索引擎種類,*是一個通配符
Disallow /admin/ 這裏定義是禁止爬尋admin目錄下面的目錄
Disallow /require/ 這裏定義是禁止爬尋require目錄下面的目錄
Disallow /ABC/ 這裏定義是禁止爬尋ABC目錄下面的目錄
Disallow /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"爲後綴的URL(包含子目錄)。
Disallow /*?* 禁止訪問網站中所有包含問號 (?) 的網址
Disallow /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow /ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow /cgi-bin/ 這裏定義是允許爬尋cgi-bin目錄下面的目錄
Allow /tmp 這裏定義是允許爬尋tmp的整個目錄
Allow .htm$ 僅允許訪問以".htm"爲後綴的URL。
Allow .gif$ 允許抓取網頁和gif格式圖片
Sitemap 網站地圖 告訴爬蟲這個頁面是網站地圖

例子

例子1:禁止任何爬蟲引擎爬取任何信息

在網站根目錄下的robots.txt添加如下代碼

User-agent: *
Disallow: /

例子2:禁止任何爬蟲引擎爬取任何信息

不允許百度爬蟲爬取

User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /

例子3:允許任何爬蟲爬取

只需在網站根目錄新建一個空的robots.txt文件即可

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章