2.xctf robots

题目:X老师上课讲了Robots协议,小宁同学却上课打了瞌睡,赶紧来教教小宁Robots协议是什么吧。
打开网站是空白的,直接访问,http://111.200.241.244:58883/robots.txt
发现了一个可以爬取的文件,f1ag_1s_h3re.php,直接访问http://111.200.241.244:58883/f1ag_1s_h3re.php,得到flag
基础知识:
1、robots.txt这个文件名必需要是小写而且都要放在网站的根目录下。http://www.hongtaoseo.com/robots.txt一般要通过这种URL形式能访问到,才说明我们放的位置是正确的。
2、robots.txt一般只写上两种函数:User-agentDisallow。有几个禁止,就得有几个Disallow函数,并分行描述。
至少要有一个Disallow函数,如果都允许收录,则写: Disallow:,如果都不允许收录,则写:Disallow: / (注:只是差一个斜杆)。
3、User-agent: *星号说明允许所有搜索引擎收录
4、Disallow: /search.html说明http://www.honbgtaoseo.com/search.html这个页面禁止搜索引擎抓取。
5、Disallow: /index.php?说明类似这样的页面http://www.www.hongtaoseo.com/index.php?search=%E5%A5%BD&action=search&searchcategory=%25都禁止搜索引擎抓取。

上一篇:网络爬虫协议robots.txt


下一篇:CTFshow_信息收集