我的第三篇爬虫博客《爬虫网络请求模块一》

urllib

为什么要学urllib?

1.有一些比较老的爬虫项目用的就是urllib

2.我们在做一些爬虫的时候往往需要request+urllib一起使用

3.urllib是python内置的模块

4.urllib是python内置的一个爬虫网络请求模块

urllib快速入门

urllib.request的使用

urllib.reuqest常用方法:

1.urllib.request.Request(网址,字典),(构造user-agent)

2.urllib.request.urlopen()向网站发起一个请求,获取响应对象

3.字节流=response.read()读取响应对象的内容

4.字符串=reponse.read().decode(‘utf-8’)

urllib发起请求思路总结:

我的第三篇爬虫博客《爬虫网络请求模块一》

urllib.request响应对象

1.read()读取服务器响应的内容

2.getcode()返回HTTP的响应内容

3.geturl()返回实际数据的url(防止重定向问题)

我的第三篇爬虫博客《爬虫网络请求模块一》

urllib.parse的使用:将url中的中文转换为百分号加十六进制

urllib.parse常用方法

1.urllib.parse.urlencode(字典)

我的第三篇爬虫博客《爬虫网络请求模块一》

2.urllib.parse.quote(字符串)

我的第三篇爬虫博客《爬虫网络请求模块一》

*反反爬 unquote(url几乎都是百分号加十六进制)我的第三篇爬虫博客《爬虫网络请求模块一》

爬取百度贴吧的数据:
1.输入要爬取的贴吧主题
2.输入要爬取的起始页和终止页
3.把每一页爬取的数据都保存下来

我的第三篇爬虫博客《爬虫网络请求模块一》

*如何实现翻页这个逻辑?

我的第三篇爬虫博客《爬虫网络请求模块一》

*进行函数封装爬取百度贴吧

我的第三篇爬虫博客《爬虫网络请求模块一》

上一篇:输入框中的字符串转对象


下一篇:es6 数组的常用算法