Python爬虫(三)——Robots协议

Python爬虫(三)——Robots协议

Robots协议全称为Robots Exclusion Standard,网络爬虫排除标准。它的作用是告知网络爬虫哪些可以抓取哪些不可以。通常被放在网站根目录下的robots.txt。

注:并不是所有网站都有Robots协议,如果没有默认为内容都可以爬取。

基本语法

#*代表所有,/代表根目录
User-agent:*
Disallow:/
  • User-agent 限制的User-agent
  • Disallow 不允许访问的目录

使用

自动或人工识别robots.tst,再进行内容爬取。

你也可以不遵守robots.txt,但会产生风险。只有当你的程序不会对服务器产生威胁或者行为类似人类的时候可以不遵守robots.txt。这时候你获取的资源不能用于商业用途。

Python爬虫(三)——Robots协议Python爬虫(三)——Robots协议 等等,还有一个bug 发布了3 篇原创文章 · 获赞 0 · 访问量 71 私信 关注
上一篇:python爬虫遵守规则


下一篇:Python网络爬虫第一弹《Python网络爬虫相关基础概念》