robots協議對於網站優化中收錄的影響

原創

2020-06-16 15:31

一、robots協議到底是什麼？

先來說說什麼是Robots協議，它也叫機器人協議或爬蟲協議，它並不是一個指令，而是一個文本，一般來說常見的文本編輯器都可以創建和編輯它，它具有非常強大的作用和功能。網站可以通過Robots協議告訴搜索引擎哪些網站頁面可以抓取，哪些網站頁面不能被抓取。有的網站優化人員可能使用的建站系統自帶Robots.txt文件，有的壓根就沒有Robots.txt文件。這使得爬蟲無法對網站進行爬取索引。自然而然的不會收錄你的網站，所以大家在建站之後一定要記得查看是否存在在Robots.txt以及它的內容是否規範。

二、robots.txt文件設置要求1、robots.txt文件必須放置在網站根目錄；2、robots.txt文件名必須小寫。根據上面兩點提示我們查看到絕大部分網站的robots.txt文件，如果出現無法訪問的現象，最大可能就是網站根目錄中沒有此文件。

三、常見語法的定義User-agent:定義搜索引擎。如果想定義所有搜索引擎請用*;Disallow:禁止搜索引擎抓取，“/”表示根目錄，代表網站的所有目錄。Allow: 是允許的意思，這裏只簡單的做一下描述，具體的操作寫法請參考百度文庫。希望以上關於網站優化的robots協議的內容對大家有幫助，一般主流的搜索引擎都會遵守robots文件指令，Robots可以用來防止搜索引擎抓取那些我們不想被搜索引擎索引的內容。我們可以用它來保護一些隱私的內容，屏蔽死鏈接和無內容頁面和重複頁面。

Robots協議用來告知搜索引擎哪些頁面能被抓取，哪些頁面不能被抓取；可以屏蔽一些網站中比較大的文件，如：圖片，音樂，視頻等，節省服務器帶寬；可以屏蔽站點的一些死鏈接。方便搜索引擎抓取網站內容；設置網站地圖連接，方便引導蜘蛛爬取頁面。

此爲君子協議，只能作爲建議給出，但是良好的網絡公民都應該遵守這些限制。

Robots協議是國際互聯網界通行的道德規範，基於以下原則建立：

1、搜索技術應服務於人類，同時尊重信息提供者的意願，並維護其隱私權；

2、網站有義務保護其使用者的個人信息和隱私不被侵犯。

查看站點的robots協議

robots.txt一般放在站點根目錄下：

百度：https://www.baidu.com/robots.txt

博客園：https://www.cnblogs.com/robots.txt

GitHub:https://github.com/robots.txt

新浪新聞：https://news.sina.com.cn/robots.txt

文件寫法

User-agent: * 這裏的*代表的所有的搜索引擎種類，*是一個通配符
Disallow: /admin/ 這裏定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這裏定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這裏定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"爲後綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/　這裏定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這裏定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以".htm"爲後綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

robots協議對於網站優化中收錄的影響

查看站點的robots協議

文件寫法

如何使用 JS 判斷用戶是否處於活躍狀態

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

Python多任務

Mac 終端默認啓動python3環境

pygame.display.flip()和pygame.display.update()的區別：

pygame寫入圖片後圖片不顯示的問題

html根據需要動態加載服務器數據

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結