robots协议理解

robots协议,也被称为是爬虫协议。

随着python大火,python爬虫也越来越被人熟知。

例如一些搜索引擎,其实就是靠着爬虫去获取每个网站的信息。

自然,像百度等比较大的搜索引擎,他是合法的。

怎么解释这个合法呢?意思就是,你自己的东西。

如果你想让百度去搜索到,那么就可以被搜索到。

如果你不想让百度搜索到,那么你可以在你的网站放一个robots.txt文件。

百度等爬虫爬到你的web时候,首先会索引你有没有这个文件。

如果有,他会读robots.txt里面的内容,就是你可以设置哪些信息你允许被百度录收,哪些东西不想让百度录收。他会严格按照你里面的内容对你的网站进行爬取。

如果你没有robots.txt文件,那么他默认为收集你没有被特殊保护我页面。

Robots协议是国际互联网界通行的道德规范,基于以下原则建立:
1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;
2、网站有义务保护其使用者的个人信息和隐私不被侵犯。

上一篇:认识爬虫:在 python 爬虫过程中做一个正人君子?了解一下 robots.txt 文件吧?


下一篇:robots