1:工具
pycharm
request,lxml模块
谷歌浏览器
2;导包方法
pip install 模块名
或pycharm设置里面
方法;点击File--Settings--project:你的项目名--project interpreter
点击pip 搜索 然后下载安装
3;代码如下
import requests from lxml import etree url='https://s.weibo.com/top/summary?cate=realtimehot' headers={ 'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Mobile Safari/537.36' # } } res=requests.get(url,headers=headers)#发送请求获取响应 html=etree.HTML(res.content)#转化成html文件 data=html.xpath('/html/body/div/section/ul/li[*]/a/span/text()')#提取数据 print(data)
上效果图
4;关于xpath提取
安装xpath helper
进入界面如下
注意;xpath提取的是responce里面的东西;response里面没有数据会返回空列表
5;数据提取
6