我的第三篇爬虫博客《爬虫网络请求模块一》2024-01-10 16:08:04 urllib 为什么要学urllib? 1.有一些比较老的爬虫项目用的就是urllib 2.我们在做一些爬虫的时候往往需要request+urllib一起使用 3.urllib是python内置的模块 4.urllib是python内置的一个爬虫网络请求模块 urllib快速入门 urllib.request的使用 urllib.reuqest常用方法: 1.urllib.request.Request(网址,字典),(构造user-agent) 2.urllib.request.urlopen()向网站发起一个请求,获取响应对象 3.字节流=response.read()读取响应对象的内容 4.字符串=reponse.read().decode(‘utf-8’) urllib发起请求思路总结: urllib.request响应对象 1.read()读取服务器响应的内容 2.getcode()返回HTTP的响应内容 3.geturl()返回实际数据的url(防止重定向问题) urllib.parse的使用:将url中的中文转换为百分号加十六进制 urllib.parse常用方法 1.urllib.parse.urlencode(字典) 2.urllib.parse.quote(字符串) *反反爬 unquote(url几乎都是百分号加十六进制) 爬取百度贴吧的数据: 1.输入要爬取的贴吧主题 2.输入要爬取的起始页和终止页 3.把每一页爬取的数据都保存下来 *如何实现翻页这个逻辑? *进行函数封装爬取百度贴吧 上一篇:输入框中的字符串转对象下一篇:es6 数组的常用算法