robots.txt防爬蟲使用

robots.txt文件用法舉例：

首先來看看robots.txt文件的使用位置情況，如github的robots使用情況。

下面參考https://blog.csdn.net/cc1254383393/article/details/48753961/

1.robots.txt文件是什麼

robots.txt是一個純文本文件，是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什麼文件是可以被查看的。每個站點最好建立一個robots.txt文件，對seo更友好。每當搜索蜘蛛來尋找並不存在的robots.txt文件時，服務器將在日誌中記錄一條404錯誤，所以你應該在網站中添加一個robots.txt（即使這個robots.txt文件只是一個空文件）。

2.robots.txt的寫法（語法）

1）User-agent: 該項的值用於描述搜索引擎蜘蛛的名字。如果該項的值設爲*，則該協議對任何機器人均有效。

2）Disallow: 該項的值用於描述不希望被訪問到的一個URL，一個目錄或者整個網站。以Disallow 開頭的URL 均不會被搜索引擎蜘蛛訪問到。任何一條Disallow 記錄爲空，說明該網站的所有部分都允許被訪問。

3）用法舉例

例1. 禁止所有搜索引擎訪問網站的任何部分

User-agent: *

Disallow: /

例2. 允許所有的robot訪問 (或者也可以建一個空文件 "/robots.txt" file)

User-agent: *

Disallow:

例3. 禁止某個搜索引擎的訪問

User-agent: BadBot

Disallow: /

例4. 允許某個搜索引擎的訪問

User-agent: baiduspider

Disallow:

User-agent: *

Disallow: /

例5.一個簡單例子

在這個例子中，該網站有三個目錄對搜索引擎的訪問做了限制，即搜索引擎不會訪問這三個目錄。

需要注意的是對每一個目錄必須分開聲明，而不要寫成 "Disallow: /cgi-bin/ /tmp/"。

User-agent:後的*具有特殊的含義，代表"any robot"，所以在該文件中不能有"Disallow: /tmp/*" or "Disallow:*.gif"這樣的記錄出現.

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

3.robots.txt文件帶來的風險以及解決

　　robots.txt 同時也帶來了一定的風險：其也給攻擊者指明瞭網站的目錄結構和私密數據所在的位置。設置訪問權限，對您的隱私內容實施密碼保護，這樣，攻擊者便無從進入。

4.注意事項：

1）robots.txt必須放置在站點的根目錄下，而且文件名必須全部小寫。

2）不要在robots.txt文件中設置所有的文件都可以被搜索蜘蛛抓取。

3）爲安全考慮，建議很重要的文件夾不要寫在robots.txt文件中，或你只建一個空白robots.txt文件，在不要訪問的目錄中加入其它的技術。

https://blog.csdn.net/cc1254383393/article/details/48753961/這篇博客內容寫得很詳細，有興趣的可以閱讀一下該篇博客。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

robots.txt防爬蟲使用

linux安裝cuda和cudnn

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

我拍了拍Redis，被移出了羣聊···

網絡現代化通向雲原生應用的高速公路

面試官：說說你對序列化的理解

我宣佈，這是我找到的史上AI最全論文體系！

robots.txt防爬蟲使用

qemu仿真可執行二進制文件時出現錯誤：/lib/ld-uClibc.so.0: No such file or directory的解決方法

XCTF攻防世界練習區-web題-backup

XCTF攻防世界練習區-web題-backup

sorted、sort、reverse使用小結一下（總是用錯和用混淆）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結