攻防世界系列:Training-WWW-Robots
1.查看robots.txt的要求
补充:
什么是robots.txt协议?
Robots.txt是放在网站根目录下的一个文件,也是搜索引擎在网站访问的第一个文件,它告诉搜索引擎(爬虫)可以访问站内的那些内容不能访问那些内容。
但它仅是一个道德标准保护不了隐私。也有听到它被戏称为 君子协议 哈哈
以上图为例 Disallow:/ fl0g.php 意思是默认情况爬取fl0g.php不被允许,就是搜索不到但是可以访问到!
2.打开 fl0g.php