robots協議對於網站優化中收錄的影響

一、robots協議到底是什麼?

先來說說什麼是Robots協議,它也叫機器人協議或爬蟲協議,它並不是一個指令,而是一個文本,一般來說常見的文本編輯器都可以創建和編輯它,它具有非常強大的作用和功能。網站可以通過Robots協議告訴搜索引擎哪些網站頁面可以抓取,哪些網站頁面不能被抓取。有的網站優化人員可能使用的建站系統自帶Robots.txt文件,有的壓根就沒有Robots.txt文件。這使得爬蟲無法對網站進行爬取索引。自然而然的不會收錄你的網站,所以大家在建站之後一定要記得查看是否存在在Robots.txt以及它的內容是否規範。

二、robots.txt文件設置要求1、robots.txt文件必須放置在網站根目錄;2、robots.txt文件名必須小寫。根據上面兩點提示我們查看到絕大部分網站的robots.txt文件,如果出現無法訪問的現象,最大可能就是網站根目錄中沒有此文件。

三、常見語法的定義User-agent:定義搜索引擎。如果想定義所有搜索引擎請用*;Disallow:禁止搜索引擎抓取,“/”表示根目錄,代表網站的所有目錄。Allow: 是允許的意思,這裏只簡單的做一下描述,具體的操作寫法請參考百度文庫。希望以上關於網站優化的robots協議的內容對大家有幫助,一般主流的搜索引擎都會遵守robots文件指令,Robots可以用來防止搜索引擎抓取那些我們不想被搜索引擎索引的內容。我們可以用它來保護一些隱私的內容,屏蔽死鏈接和無內容頁面和重複頁面。

Robots協議用來告知搜索引擎哪些頁面能被抓取,哪些頁面不能被抓取;可以屏蔽一些網站中比較大的文件,如:圖片,音樂,視頻等,節省服務器帶寬;可以屏蔽站點的一些死鏈接。方便搜索引擎抓取網站內容;設置網站地圖連接,方便引導蜘蛛爬取頁面。

此爲君子協議,只能作爲建議給出,但是良好的網絡公民都應該遵守這些限制。

Robots協議是國際互聯網界通行的道德規範,基於以下原則建立:

1、搜索技術應服務於人類,同時尊重信息提供者的意願,並維護其隱私權;

2、網站有義務保護其使用者的個人信息和隱私不被侵犯。

查看站點的robots協議

robots.txt一般放在站點根目錄下:

百度:https://www.baidu.com/robots.txt

博客園:https://www.cnblogs.com/robots.txt

GitHub:https://github.com/robots.txt

新浪新聞:https://news.sina.com.cn/robots.txt

文件寫法

User-agent: * 這裏的*代表的所有的搜索引擎種類,*是一個通配符
Disallow: /admin/ 這裏定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這裏定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這裏定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"爲後綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/ 這裏定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這裏定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以".htm"爲後綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章