数据解析基础之Xpath解析基础

一、Xpath

1.1、Xpath介绍

  • XPath是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。
  • XML是和HTML格式类似的标记语言。拥有标签,节点等元素。但是HTML会被浏览器识别,并根据标签的含义生成对应的样式。xml则不会被识别,且他的标签是自定义的,HTML的标签则是固定的。所以xml常被用于数据传输。但是现在并不常用,我只在maven配置文件中看到使用这种文件。现在一般数据传输度使用的JSON文件。(如果有其他地方也在使用XML,欢迎指点下~)
  • 提到XML,想到Ajax的XMLHttpRequest对象。Ajax能在不重新加载整个页面的情况下,异步加载页面。XMLHttpRequest 对象提供了对 HTTP 协议的完全的访问,包括做出 POST 和 HEAD 请求以及普通的 GET 请求的能力。可以同步或异步地返回 Web 服务器的响应,并且能够以文本或者一个 DOM 文档的形式返回内容。虽然XMLHttpRequest对象里面包含XML,但是并不局限于XML,它可以接收任何形式的文本文档。
  • 由于xml的编写格式几乎与html一致,我们可以使用他的XPATH去寻找对应的标签和元素。

1.2、Xpath解析原理

  • 实例化一个 etree 对象,且需要将被解析的页面源码数据加载到该对象中;
  • 调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获;

二、xpath简单实用示例

2.1、xpath环境安装

# pip install lxml

2.2、实例化etree对象


上一篇:Python爬虫XPath解析后保存CSV文件乱码的问题


下一篇:2、Xpath语法和lxml库