robots协议理解

2024-03-27 07:57:46

robots协议，也被称为是爬虫协议。

随着python大火，python爬虫也越来越被人熟知。

例如一些搜索引擎，其实就是靠着爬虫去获取每个网站的信息。

自然，像百度等比较大的搜索引擎，他是合法的。

怎么解释这个合法呢？意思就是，你自己的东西。

如果你想让百度去搜索到，那么就可以被搜索到。

如果你不想让百度搜索到，那么你可以在你的网站放一个robots.txt文件。

百度等爬虫爬到你的web时候，首先会索引你有没有这个文件。

如果有，他会读robots.txt里面的内容，就是你可以设置哪些信息你允许被百度录收，哪些东西不想让百度录收。他会严格按照你里面的内容对你的网站进行爬取。

如果你没有robots.txt文件，那么他默认为收集你没有被特殊保护我页面。

Robots协议是国际互联网界通行的道德规范，基于以下原则建立：
1、搜索技术应服务于人类，同时尊重信息提供者的意愿，并维护其隐私权；
2、网站有义务保护其使用者的个人信息和隐私不被侵犯。

码农公寓