robots.txt防爬蟲使用

robots.txt文件用法舉例:

首先來看看robots.txt文件的使用位置情況,如github的robots使用情況。

下面參考https://blog.csdn.net/cc1254383393/article/details/48753961/

1.robots.txt文件是什麼

robots.txt是一個純文本文件,是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什麼文件是可以被查看的。每個站點最好建立一個robots.txt文件,對seo更友好。每當搜索蜘蛛來尋找並不存在的robots.txt文件時,服務器將在日誌中記錄一條404錯誤,所以你應該在網站中添加一個robots.txt(即使這個robots.txt文件只是一個空文件)。

2.robots.txt的寫法(語法)

1)User-agent: 該項的值用於描述搜索引擎蜘蛛的名字。如果該項的值設爲*,則該協議對任何機器人均有效。

2)Disallow: 該項的值用於描述不希望被訪問到的一個URL,一個目錄或者整個網站。以Disallow 開頭的URL 均不會被搜索引擎蜘蛛訪問到。任何一條Disallow 記錄爲空,說明該網站的所有部分都允許被訪問。

3)用法舉例

例1. 禁止所有搜索引擎訪問網站的任何部分

User-agent: *

Disallow: /

例2. 允許所有的robot訪問 (或者也可以建一個空文件 "/robots.txt" file)

User-agent: *

Disallow:

例3. 禁止某個搜索引擎的訪問

User-agent: BadBot

Disallow: /

例4. 允許某個搜索引擎的訪問

User-agent: baiduspider

Disallow:

User-agent: *

Disallow: /

例5.一個簡單例子

在這個例子中,該網站有三個目錄對搜索引擎的訪問做了限制,即搜索引擎不會訪問這三個目錄。

需要注意的是對每一個目錄必須分開聲明,而不要寫成 "Disallow: /cgi-bin/ /tmp/"。

User-agent:後的*具有特殊的含義,代表"any robot",所以在該文件中不能有"Disallow: /tmp/*" or "Disallow:*.gif"這樣的記錄出現.

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

3.robots.txt文件帶來的風險以及解決

  robots.txt 同時也帶來了一定的風險:其也給攻擊者指明瞭網站的目錄結構和私密數據所在的位置。設置訪問權限,對您的隱私內容實施密碼保護,這樣,攻擊者便無從進入。

4.注意事項:

1)robots.txt必須放置在站點的根目錄下,而且文件名必須全部小寫。

2)不要在robots.txt文件中設置所有的文件都可以被搜索蜘蛛抓取。

3)爲安全考慮,建議很重要的文件夾不要寫在robots.txt文件中,或你只建一個空白robots.txt文件,在不要訪問的目錄中加入其它的技術。

https://blog.csdn.net/cc1254383393/article/details/48753961/這篇博客內容寫得很詳細,有興趣的可以閱讀一下該篇博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章