简单用xpath爬取微博热搜

1:工具

pycharm

request,lxml模块

谷歌浏览器

2;导包方法

pip install 模块名

或pycharm设置里面

方法;点击File--Settings--project:你的项目名--project interpreter

点击pip  搜索 然后下载安装

3;代码如下

import requests
from lxml import etree
url='https://s.weibo.com/top/summary?cate=realtimehot'
headers={
'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Mobile Safari/537.36'
# }
}
res=requests.get(url,headers=headers)#发送请求获取响应
html=etree.HTML(res.content)#转化成html文件
data=html.xpath('/html/body/div/section/ul/li[*]/a/span/text()')#提取数据
print(data)

上效果图

简单用xpath爬取微博热搜

 

4;关于xpath提取

安装xpath helper

进入界面如下

简单用xpath爬取微博热搜

 注意;xpath提取的是responce里面的东西;response里面没有数据会返回空列表

5;数据提取

简单用xpath爬取微博热搜

简单用xpath爬取微博热搜 

简单用xpath爬取微博热搜 

6简单用xpath爬取微博热搜

 

 

上一篇:request框架练习


下一篇:Python3实现自动抽奖