【爬蟲】解析-豆瓣網站規範`robots.txt`

【爬蟲】解析-豆瓣網站規範robots.txt

robots.txt

User-agent: *
Disallow: /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /forum/
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Disallow: /link2/
Disallow: /recommend/
Disallow: /doubanapp/card
Disallow: /update/topic/
Allow: /ads.txt
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap: https://www.douban.com/sitemap_updated_index.xml
# Crawl-delay: 5

User-agent: Wandoujia Spider
Disallow: /

User-agent: Mediapartners-Google
Disallow: /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /j/

解釋

  • User-agent(用戶代理)是一種用於標誌特定抓取工具或一組抓取工具的手段
    • 注意用戶代理區分大小寫
    • 用法爲User-agent: [user-agent]
    • 例如User-agent: *表示所有的抓取工具;User-agent: Wandoujia Spider表示豌豆莢的抓取工具;User-agent: Mediapartners-Google表示一種Google的抓取工具AdSense,該工具通過訪問網站內容以便於提供相關的廣告
  • Disallow(不允許)用於指定抓取工具不能訪問的路徑
    • 路徑值需要以"/"開頭,表示根目錄,路徑區分大小寫
    • 路徑結尾沒有斜杆表示此項與此文件夾中的內容均匹配。以/subject_search爲例,可以匹配爲/subject_search*/subject_search/*(注意*爲通配符,表示0個或多個有效字符串)
    • 路徑結尾有斜杆表示此文件夾中的內容均匹配。以/forum/爲例,可以匹配爲/forum/*,不能匹配/forum*(此處的通配符*不包含/符號)
    • 如果未指定路徑,該命令將被忽略
    • 用法爲Disallow: [path]
    • 例如Disallow: /subject_search表示該抓取工具不可以抓取/subject_search*/subject_search/*路徑的內容;Disallow: /forum/表示該抓取工具不可以抓取/forum/*路徑的內容;Disallow: /表示該抓取工具不可以抓取/*路徑下的所有內容
  • Allow(允許)用於指定相應抓取工具可以訪問的路徑
    • 路徑值同上
    • 用法爲Allow: [path]
    • 例如Allow: /ads.txt表示該抓取工具可以抓取/ads.txt路徑的內容
  • Sitemap(站點地圖)是網站管理員用於通知搜索引擎該網站可以爬取頁面內容的一種簡單方式
    • Google、Bing和其他主要搜索引擎都支持Sitemap
    • Sitemap可以指向站點地圖、站點地圖索引文件或等效網址
    • Sitemap可以有多個條目
    • 用法爲Sitemap: [absoluteURL]
    • 例如Sitemap: https://www.douban.com/sitemap_index.xml
      Sitemap: https://www.douban.com/sitemap_updated_index.xml指定了豆瓣的站點地圖索引文件及站點地圖索引更新文件
  • Crawl-delay()用於指定抓取工具請求抓取的頻率,以秒爲單位
    • 用法爲Crawl-delay: [number]
    • 例如Crawl-delay: 5表示抓取工具兩次進入站點訪問的間隔時間爲5秒
  • 注意:path路徑遇到Disallow和Allow相沖突時,最具體的路徑值優先級更高。例如Disallow: /Allow: /search同時存在時,結果爲Allow: /search

參考

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章