Python爬虫(ROBOTS协议和Request使用入门)

ROBOTS协议
Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
举例:https://www.baidu.com/robots.txt
Python爬虫(ROBOTS协议和Request使用入门)

Request使用入门

Urlib
Urlib是Python内置的HTTP请求库。
Request
Request表示来自客户端的一次请求,它有请求行,请求头,和请求实体。

为什么学习request,而不是urlib?
·Request的底层实现就是urlib
·Request在python2和pyhton3中通用,方法完全一样,但对urlib来说却不一样
·Request简单易用
·Request能够自动帮助我们解压(gzip压缩的等)网页内容

Request的作用

发送网络请求,返回响应数据
中文文档API:https://docs.python-requests.org/zh_CN/latest/index.html

Request的使用

·一开始要导入Request模块:import  requests(编译器需要提前安装request)
Python爬虫(ROBOTS协议和Request使用入门)

·然后尝试获取某个网页(百度为例)
Python爬虫(ROBOTS协议和Request使用入门)
·现在我们获得一个名为r的Response对象。(可以尝试输出它)
Python爬虫(ROBOTS协议和Request使用入门)
Python爬虫(ROBOTS协议和Request使用入门)

Requests中获取网页信息时解决编解码的方法

在我们获取网页信息时,可能因编解码方式的不同从而导致信息乱码
Python爬虫(ROBOTS协议和Request使用入门)
·response.content(结果为二进制类型,可用字符转换来转换类型即:response.content.decode())
·response.content.decode(“gbk”)
·response.encode=“编码方式” + response.text
Python爬虫(ROBOTS协议和Request使用入门)
Python爬虫(ROBOTS协议和Request使用入门)

response.text和response.content的区别

response.text和response.content都可用来获取响应的网页页面的信息

·response.text:
 类型:str
 解码类型:根据HTTP头部响应的编码做出有根据的推测,推测文本编码
 如何修改编码方式:response.encoding=“解码类型”(例:response.encoding=“utf-8”)

·response.content
 类型:bytes
 解码类型:没有设定
 如何修改编码方式:response.content.decode(“解码类型”)(例:response,content.decode(“utf-8”))

Request简单运用(爬取一张已知地址的图片)

Python爬虫(ROBOTS协议和Request使用入门)
Python爬虫(ROBOTS协议和Request使用入门)

上一篇:浏览器警告Failed to decode downloaded font 系统页面字体图标加载不出来 问题总结


下一篇:中文路径乱码问题,URLDecoder.decode的坑