XCTF攻防世界練習區-web題-Robots

0x03. Robots

【題目描述】

X老師上課講了Robots協議，小寧同學卻上課打了瞌睡，趕緊來教教小寧Robots協議是什麼吧。

【目標】

掌握robots協議的知識。robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。當一個搜索爬蟲訪問一個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果存在，搜索爬蟲就會按照該文件中的內容來確定訪問的範圍；如果該文件不存在，所有的搜索爬蟲將能夠訪問網站上所有沒有被口令保護的頁面。

Robots協議（也稱爲爬蟲協議、機器人協議等）的全稱是“網絡爬蟲排除標準”（Robots Exclusion Protocol），網站通過Robots協議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取。
robots協議通常以robots.txt存在，robots.txt文件是一個文本文件，robots.txt是一個協議，而不是一個命令。robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什麼文件是可以被查看的。

robots.txt文件寫法：

User-agent: * 這裏的代表的所有的搜索引擎種類，是一個通配符
Disallow: /admin/ 這裏定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這裏定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這裏定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"爲後綴的URL(包含子目錄)。
Disallow: /?* 禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/ 這裏定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這裏定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以".htm"爲後綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖告訴爬蟲這個頁面是網站地圖

【解題思路】

（1）思路1

第一步：構造訪問robots.txt的鏈接http://111.198.29.45:34695/robots.txt

這個意思就禁止爬取文件：f1ag_1s_h3re.php，同樣文件命名也說明了一切了吧。非要打開看看。

第二步：構造鏈接http://111.198.29.45:34695/f1ag_1s_h3re.php

直接獲取到flag。

（2）思路2

當然也有第二種方法就是，使用dirsearch工具進行掃描目錄。

掃目錄腳本dirsearch(項目地址：https://github.com/maurosoria/dirsearch)

掃描能找到robots.txt文件。

參考鏈接：

（涉及的知識點講解，很詳細）

https://www.cnblogs.com/kubbycatty/archive/2019/06/27/11100171.html

（過程講解，很詳細）

https://blog.csdn.net/God_XiangYu/article/details/100602297

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

XCTF攻防世界練習區-web題-Robots

0x03. Robots

lightdb hash index的性能和限制

robots.txt防爬蟲使用

qemu仿真可執行二進制文件時出現錯誤：/lib/ld-uClibc.so.0: No such file or directory的解決方法

XCTF攻防世界練習區-web題-backup

XCTF攻防世界練習區-web題-backup

sorted、sort、reverse使用小結一下（總是用錯和用混淆）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結