反開源爬蟲 robot.txt

原創

2019-05-09 23:57

搜索引擎通過一種程序“蜘蛛”（又稱spider），自動訪問互聯網上的網頁並獲取網頁信息。您可以在您的網站中創建一個純文本文件 robots.txt，在這個文件中聲明該網站中不想被蜘蛛訪問的部分，這樣，該網站的部分或全部內容就可以不被搜索引擎訪問和收錄了，或者可以通過robots.txt指定使搜索引擎只收錄指定的內容。搜索引擎爬行網站第一個訪問的文件就是robots.txt。

百度百科 -- robot.txt

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

Wireshark 安裝+使用（一）

反開源爬蟲 robot.txt

Wireshark 安裝+使用（一）

elasticsearch 圖形管理破解 x-pack

spark on yarn & spark on hive & spark-sql on hive

反開源爬蟲 robot.txt

hive搭建

spark on hive

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結