scrapy中ROBOTSTXT_OBEY = True的相關說明

轉載自  https://blog.csdn.net/you_are_my_dream/article/details/60479699

在scrapy中創建項目以後,在settings文件中有這樣的一條默認開啓的語句:

# Obey robots.txt rules  
ROBOTSTXT_OBEY = True  
觀察代碼可以發現,默認爲True,就是要遵守robots.txt 的規則,那麼 robots.txt 是個什麼東西呢?

通俗來說, robots.txt 是遵循 Robot協議 的一個文件,它保存在網站的服務器中,它的作用是,告訴搜索引擎爬蟲,本網站哪些目錄下的網頁 不希望 你進行爬取收錄。在Scrapy啓動後,會在第一時間訪問網站的 robots.txt 文件,然後決定該網站的爬取範圍。

當然,我們並不是在做搜索引擎,而且在某些情況下我們想要獲取的內容恰恰是被 robots.txt 所禁止訪問的。所以,某些時候,我們就要將此配置項設置爲 False ,拒絕遵守 Robot協議
發佈了64 篇原創文章 · 獲贊 138 · 訪問量 41萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章