關於robots.txt

原創

2020-06-25 09:09

robots.txt有什麼用？
如果您不希望互聯網爬蟲（又叫蜘蛛、Crawler、Spider等）抓取您網站的每一個公開的鏈接，而只抓取您指定的某一部分鏈接，或根本不抓取任何鏈接，你可以使用robots.txt向我們彙報爬蟲信息。

怎麼使用robots.txt？
建議您在站點的根目錄下存放一個robots.txt文件。我們的爬蟲在第一次抓取您站點時會首先確認根目錄下是否有robots.txt文件。例如，您的網站地址是www.abc.com，我們會首先抓取http://www.abc.com/robots.txt再進行後續操作。如無法訪問robots.txt文件，系統則默認爲您站點的每個鏈接都可以被抓取。

怎麼寫robots.txt文件？
robots.txt是個很簡單的文本文件，您只要標明“誰不能訪問哪些鏈接”即可。
在文件的第一行寫：
User-Agent: YoudaoBot
這就告訴了爬蟲下面的描述是針對名叫YoudaoBot的爬蟲。您還可以寫：
User-Agent: *
這就意味着向所有的爬蟲開放。需要注意的是一個robots.txt文件裏只能有一個"User-Agent: *"。

接下來是不希望被訪問的鏈接前綴。例如：
Disallow: /private
這就告訴爬蟲不要抓取以"/private"開頭的所有鏈接。包括/private.html，/private/some.html，/private/some/haha.html。如果您寫成：
Disallow: /
則表明整個站點都不希望被訪問。您也可以分多行來指定不希望被抓取的鏈接前綴，例如：
Disallow: /tmp
Disallow: /disallow
那麼所有以"/tmp"和"/disallow"開頭的鏈接都不會被訪問了。

最後形成的robots.txt文件如下：
User-Agent: YoudaoBot
Disallow: /tmp
Disallow: /private

請注意，如果您的robots.txt文件裏有中文等非英語字符，請確定該文件是由UTF-8編碼編寫。

怎樣分別指定不同的網絡爬蟲？
這個操作很簡單，只要分別指定“誰能或不能訪問怎樣的鏈接”即可。例如：
User-Agent: YoudaoBot
Disallow:

User-Agent: *
Disallow: /private
上面的robots.txt表明，名爲YoudaoBot的爬蟲可以抓所有的內容，其它名稱的爬蟲不能抓以"/private"開頭的鏈接。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.