反開源爬蟲 robot.txt

搜索引擎通過一種程序“蜘蛛”(又稱spider),自動訪問互聯網上的網頁並獲取網頁信息。您可以在您的網站中創建一個純文本文件robots.txt,在這個文件中聲明該網站中不想被蜘蛛訪問的部分,這樣,該網站的部分或全部內容就可以不被搜索引擎訪問和收錄了,或者可以通過robots.txt指定使搜索引擎只收錄指定的內容。搜索引擎爬行網站第一個訪問的文件就是robots.txt。

百度百科  -- robot.txt

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章