如何使用Python和lxml选择“加载更多结果”按钮

我在抓一个网页.该网页包含50个条目.在50个条目之后它给出了一个
加载更多reults按钮.我需要自动选择它.我该怎么做.对于抓取我使用的是Python,Lxml.

解决方法:

即使JavaScript使用http请求来获取数据,因此一种方法是调查,当用户要求“加载更多结果”并模拟这些请求时,哪些请求提供数据.

这不是传统的抓取,它基于简单或渲染的html内容并检测更多链接,但可以是工作解决方案.

下一步行动:

>访问Google Chrome或Firefox中的页面
>按F12启动开发人员工具或Firebug
>切换到“网络”标签
>点击“加载更多结果”
>检查,哪些http请求已提供数据以加载更多结果以及它们返回的数据.
>尝试从Python模拟这些请求

请注意,数据不一定是HTML或XML格式,但可以是JSON格式.但Python也提供了足够的工具来处理这种格式.

上一篇:Python BeautifulSoup错误


下一篇:python-lxml etree.parse MemoryAllocation错误