1.requests模块:
1.1)它是python中基于网络请求的模块,功能很强大,简单便捷,效率高。
2.如何使用:(requests模块的编码流程)
2.1.导入requests库 |
2.2.指定url |
2.3.发起请求 |
2.4.获取响应数据 |
2.5.数据保存 |
网页数据爬取
3.requests库:
3.1)方法:
r=requests.get('url'):发送请求获取资源对象,并且返回资源对象
requests.request(代码标签):构造请求
requests.head():获取网页头信息
3.2)步骤:
import requests:导入库
r=requests.get('url'):发送并返回请求资源对象
print(r.status_code):查看状态码
r.encoding:查看网页编码
r.apparent_encoding:根据网页内容评估的备用编码
r.text:查看整个网页的内容
r.encoding=r.apparent_encoding:将备用编码替换头编码
r.text[-500:]
r.text[:1000]
数据的优化
from bs4 import BeautifuSoup
soup=BeautifulSoup(文本/网页内容,'html.parser')
print(soup.prettify)
图片数据爬取