python爬虫(一)-基础篇

robots.txt 文件 - 网站对爬虫限制的声明(http://www.robotstxt.org/
sitemap文件 - 网站地图(https://www.sitemaps.org/protocol.html)

503 service unavailable 服务器过载错误(临时性) - 可以尝试重新下载
404 Not Found 网页不存在, 即使重复下载也不行
Http返回值完整的列表(https://tools.ietf.org/html/rfc7231#section-6), 从中可以看出4xxx错误发生在请求存在问题时,5xxx错误发生在服务器端存在问题时

上一篇:Windows系统如何使用阿里云文件存储


下一篇:推荐10个免费在线测试网页性能工具