robots.txt文件写法的细节

2024-03-27 08:02:10

robots介绍

robots是翻译过来是机器人的意思，但在网页中是网站跟搜索引擎爬虫（搜索蜘蛛）的协议，用robots.txt文件来告诉爬虫允许爬取的范围。爬虫访问网站时会第一时间检测网站是否含有robots.txt文件，如有则访问，并以该文件的说明爬取指定范围的文件。因此robots.txt是爬虫来到网站后第一个要爬取的文件。

正因为robots.txt对搜索蜘蛛的作用，如此我们可以使用robots.txt对蜘蛛进行限制和规范，让搜索引擎蜘蛛爬取更有价值的页面，提高蜘蛛的爬取效率，节约蜘蛛资源。

要知道搜索引擎不会随便浪费程序到处爬行，对于每个网站所派出的蜘蛛数量是有限的，特别是新站蜘蛛会更少，同时蜘蛛的数量是根据网站的页面量级来进行匹配的，网站页面量级越高，搜索引擎匹配的蜘蛛数量越多。因此我们更加不能浪费蜘蛛，让其爬取一些无意义的页面纯属浪费，使用robots.txt文件进行限制则变得非常有必要了。

说这么多就是表示robots.txt文件的重要性，我们应该做好robots.txt的编写，这对seo非常有意义，那么robots.txt该怎么写呢？具体的规则怎么操作，下面seo手册为大家进行详细说明。

前提条件

百度声明：robots工具目前支持48k的文件内容检测，请保证您的robots.txt文件不要过大，目录最长不超过250个字符。所以url不能太长，文件不能太大，48kb绰绰有余了。

放置位置：robots.txt通常位于网站根目录，可以直接访问，如：http://www.seoshouce.com/robots.txt

会使用到的几个格式：

User-agent: 这里放搜索蜘蛛名称

Disallow:这里放不允许蜘蛛爬取的文件或目录

Allow:这里放允许蜘蛛爬取的文件或目录（一般都是默认允许所以不写，特殊情况下才使用）

“*”，星号通配符，便是泛指，进行模糊匹配

“$”，这个符号是结束符

“/”，开头斜杠一般指的首页或是网站根目录

下面进行robots.txt写法实例说明

1、禁止所有蜘蛛爬行

user-agent:*

Disallow: /

如图淘宝禁止蜘蛛访问后，蜘蛛啥也抓不到。

2、禁止某个搜索蜘蛛/仅禁止某个蜘蛛访问

user-agent:googlebot

Disallow: /

说明：表示不允许谷歌蜘蛛进行爬行，其它蜘蛛默认允许。

3、仅允许某个蜘蛛访问

user-agent:baiduspider

Allow: /

user-agent:*

Disallow: /

说明：表示仅允许百度蜘蛛访问，先允许后禁止所有蜘蛛，上下顺序可以交换。

4、禁止蜘蛛访问某个特定目录

user-agent:*

Disallow: /123/

Disallow: /456/

说明：表示不允许所有蜘蛛访问123，456这两个目录，包括目录文件下的文件，每个目录都需要分开写。

5、禁止蜘蛛访问以某个形式形成的文件

user-agent:*

Disallow: /123

说明：表示禁止所有蜘蛛访问以123形式存在的文件，包括目录，一般多指目录，这种写法还是很少，存在歧义。

6、禁止蜘蛛访问某个特定页面

user-agent:*

Disallow: /789.html

说明：表示禁止所有蜘蛛访问789.html这个页面。

7、放出某个被禁止访问文件下的部分文件

user-agent:*

Disallow: /123/

Allow: /123/img/

说明：上述写法本身已经禁止所有蜘蛛访问123目录，但是对于123目录下的img目录（包括此目录下的文件）单独允许蜘蛛访问。

8、允许蜘蛛访问某个文件下的特定文件

user-agent:*

Disallow: /123/

Allow: /123/*.html

说明：表示禁止所有蜘蛛访问123目录，但对于123目录下的所有html文件允许访问。

9、禁止蜘蛛访问某个文件下的特定文件

user-agent:*

Disallow: /123/*.html

说明：仅禁止所有蜘蛛访问123目录下的所有html文件，其它文件照常访问。

10、禁止蜘蛛访问动态页面

user-agent:*

Disallow:/*?*

说明：用通配符表达不管问号前后是什么，只要带了问号参数的都直接禁止所有蜘蛛访问。有的时候有些人会专门刷你的问号主域页面，来做泛目录或寄生虫或搜索留痕，可以使用这个方法进行屏蔽，则蜘蛛不会在抓取也不会再收录，避免屏蔽漏掉应该再加一个，如下：

user-agent:*

Disallow:/*?*

Disallow:/?*

说明：不管问号前后是什么，或是单独问号后面是什么，都禁止所有蜘蛛抓取。

11、禁止抓取某种特定文件

user-agent:*

Disallow:/*.jpg$

Disallow:/*.css$

Disallow:/*.js$

说明：禁止所有蜘蛛访问jpg格式的图片、css样式表以及js文件，如要屏蔽所有图片，则将所有图片格式一个个列出即可。

12、加入蜘蛛地图或页面地图文件

user-agent:*

Sitemap:http://www.seoshouce.com/sitemap.xml

Sitemap:http://www.seoshouce.com/sitemap.html

说明：允许所有蜘蛛访问蜘蛛地图以及网站页面地图，加入地图有利于蜘蛛快速进行抓取，提高发现页面url的抓取途径。

提示：

一般来说网站程序文件，模板文件，数据文件可以进行屏蔽，如/bin/，/php/，/include/，/template/，/data/。

网站后台文件也可以进行屏蔽，但要用通配符，以免被有心人利用，如：/houtai/，写成/h*i/，只要网站没有以这种开头和结尾的目录就可以使用这种，如存在歧义，则修改，如/ho*i/。

robots.txt不是绝对，在多数情况下，文件里禁止爬行的文件都不会被访问，也不会被收录，但也存在被收录的情况，所以不要太绝对化。

关于“robots.txt文件写法”就写到这里，干货很干，编写不易，希望对各位做seo有所帮助，各位看官觉得有用的话请加入收藏哦，忘记了再来看看。SEO手册网干货不停，学无止境。

http://www.seoshouce.com/seo/17.html

码农公寓

robots介绍

前提条件

会使用到的几个格式：

下面进行robots.txt写法实例说明

相关文章