爬蟲
爬蟲,是一種自動獲取網頁內容的程序。是搜索引擎的重要組成部分,百度會定期去爬取網頁,做語義化分析,分析出對應數據庫裏面的索引,
因此搜索引擎優化很大程度上就是針對爬蟲而做出的優化。只要爬蟲爬出來的東西給力,用戶搜索出來的東西給很有用
robots協議
搜索引擎裏面有一個很重要的東西robots協議,就是一個正常的文本文件,只要建一個txt文件,名爲robots.txt,放到網站的根目錄下,robots.txt是爬蟲查看的第一個文件,然後分析robots.txt,定義規則那些東西不給爬,這個是一個網絡認可的協議,如果違反這個協議,就會 違反法律
robots.txt是一個文本文件,robots.txt是一個協議,不是_個命令。robots.txt是爬蟲要查看的第一個文件。robots.txt文件告訴爬蟲在服務器上什麼文件是可以被查看的,搜索機器人就會按照該文件中的內容來確定訪問的範圍。
robots.txt文件語法
字段名 | 取值 | 說明 |
---|---|---|
User-agent | * | 這裏的*代表的所有的搜索引擎種類,*是一個通配符 |
Disallow | /admin/ | 這裏定義是禁止爬尋admin目錄下面的目錄 |
Disallow | /require/ | 這裏定義是禁止爬尋require目錄下面的目錄 |
Disallow | /ABC/ | 這裏定義是禁止爬尋ABC目錄下面的目錄 |
Disallow | /cgi-bin/*.htm | 禁止訪問/cgi-bin/目錄下的所有以".htm"爲後綴的URL(包含子目錄)。 |
Disallow | /*?* | 禁止訪問網站中所有包含問號 (?) 的網址 |
Disallow | /.jpg$ | 禁止抓取網頁所有的.jpg格式的圖片 |
Disallow | /ab/adc.html | 禁止爬取ab文件夾下面的adc.html文件。 |
Allow | /cgi-bin/ | 這裏定義是允許爬尋cgi-bin目錄下面的目錄 |
Allow | /tmp | 這裏定義是允許爬尋tmp的整個目錄 |
Allow | .htm$ | 僅允許訪問以".htm"爲後綴的URL。 |
Allow | .gif$ | 允許抓取網頁和gif格式圖片 |
Sitemap | 網站地圖 | 告訴爬蟲這個頁面是網站地圖 |
例子
例子1:禁止任何爬蟲引擎爬取任何信息
在網站根目錄下的robots.txt添加如下代碼
User-agent: *
Disallow: /
例子2:禁止任何爬蟲引擎爬取任何信息
不允許百度爬蟲爬取
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
例子3:允許任何爬蟲爬取
只需在網站根目錄新建一個空的robots.txt文件即可