什么是 robots.txt 文件?
网络爬虫程序在执行时,首先应该检查站点根目录是否存在 robots.txt 文件。当这个文本文件存在时应该按照它的规则来爬取执行相应的内容,也就是爬取站点开放范围内的内容。当然,如果说你的站点不想被任何形式的爬虫、这个时候搜索引擎也是不能收录你站点的内容的,搜索引擎不进行收录时网站的 SEO 优化也会受到影响。robots.txt 文件防君子、不防小人。大多时候,robots.txt 文件的校验都被忽略了,最好在进行网络爬虫之前检验 robots.txt 文件是否存在,并且按照文件中定义的规则来检验爬虫的范围。
robots.txt 文件的定义规则是什么?
robots.txt 文件主要有 User-agent、Allow、Disallow 几个关键字来定义规则,User-agent 一般指的是对用户身份的限制,Allow、Disallow 主要是允许/拒绝访问 URL 地址。
-
实例一
1# 允许所有的 robot 进行访问
2
3User-agent: *
4
5Allow: /
-
实例二
1#拒绝所有的 robot 进行访问
2
3User-agent: *
4
5Disallow: /
-
实例三
1#拒绝所有的 robot 访问某个目录
2
3User-agent: *
4
5Disallow: /user/load/data
-
实例四
1#允许所有的 robot 访问特定的目录
2
3User-agent: *
4
5Allow: /user/load
6
7Allow: /user/excel
-
实例五
1#拒绝所有的 robot 访问某个目录下面 html 结尾的文件
2
3User-agent: *
4
5Disallow: /api/*.html
-
实例六
1#仅允许所有用户访问 .jsp 结尾的文件
2
3User-agent: *
4
5Allow: .jsp$
6
7Disallow: /
在实际应用中可以根据具体站点的需求任意组合这三个关键字的使用,完成对爬虫规则范围的配置。