小伙伴、大伙伴们,大家好~今天要给大家介绍的是Python 爬虫必杀技:XPath。
1. 简介
一提到网络爬虫,就不得不提到Xpath Helper,我们常常用它来对所要提取的文本内容进行定位。除了这一利器外,了解Xpath定位的原理及其基本用法可以大幅提高我们的爬虫技巧。
XPath即XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。现在问题来了,爬虫是从HTML网页上抓取信息,你给我介绍XML干嘛?实际上,XML是一种与HTML很相似的可扩展标记语言,均为具备结构和层次的文档,我们所关注的文本内容都由各种标签“包围”着。不同的是,XML文档的结构更简洁,比HTML对初次学习爬虫的新手更友好。因此,我们学习Python爬虫,可以从使用XPath对XML进行定位开始~
2. 安装
在Windows环境下,同时按下Home
+R
,输入cmd
:
确认后进入命令提示符界面,键入如下命令后回车:
pip install lxml
若出现下图所示界面,则表示安装成功:
3. XPath的节点
XPath的主要节点有4种,分别是:文档节点,元素节点,属性节点和文本节点。比如下面这个XML文档:
<bookstore> <book category="Fantasy Novels"> <title>Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price> </book> </bookstore>
其中bookstore
为文档节点,是book
的父节点(parent)。category
为属性节点,是book
节点的属性。title
、author
、year
和price
均为元素节点,互为同胞(sibling),是book
的子节点(child)。我们所关注的文本信息,比如Harry Potter
、J.K. Rowling
等则为文本节点。
4. XPath的路径
当我们想要描述某个地方时,我们常常用不同层次的节点名称串联起来,比如:中南财经政法大学位于“中国 湖北省 武汉市”。类似地,我们想要定位XML文档中某个文本时,我们会说:“书籍名称Harry Potter
位于book
节点下的子节点title
的文本节点”。
当我们在程序中定位时,我们需要将这种表述转换为路径表达式,最常用的路径表达式有:
表达式 | 含义 |
---|---|
/ | 从根节点选取 |
// | 从任意节点选取 |
. | 选取当前节点 |
.. | 选取当前节点的父节点 |
@ | 选取属性 |
5. XPath实例
准备工作完成,现在就让咱们实际操作一下吧~ 我们定义一个XML格式的字符串变量:
text = ''' <bookstore> <book category="Fantasy Novels"> <title>Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price> </book> </bookstore> '''
首先,我们导入lxml库,并将该字符串转换为Element对象,即告诉程序该字符串为XML格式或类XML格式。
from lxml import etree tree = etree.fromstring(text)
(1)定位元素
转换为Element对象后,即可使用XPath路径表达式对我们关注的文本内容进行定位。从根节点定位bookstore
元素下的book
元素,并以该元素为当前节点定位title
元素,其路径表达式写作:
book = tree.xpath("/bookstore/book") title = book[0].xpath("./title") print(type(book)) # 打印xpath返回的数据类型 print(title[0].tag) # 打印第一个title节点的tag
运行结果如下图所示:
以title
为当前节点,从title
的父节点定位year
元素,路径表达式写作:
year = title[0].xpath("../year") print(year[0].tag)
从任意节点选取price
元素,其路径表达式为:
price = tree.xpath("//price") print(price[0].tag)
从任意位置定位所有元素,其路径表达式为:
all_elements = tree.xpath("//*") for element in all_elements: print(element.tag)
运行结果如下:
(2)定位属性
以book
为当前节点,定位其属性Fantasy Novels
:
category = book[0].xpath("./@category") print(category)
运行结果如下:
类似地,我们也可以从任意位置定位book
元素的属性:
category = tree.xpath("//book/@category")
若定义的字符串text中含有不止一个属性时,也可以使用通配符来定位所有属性:
category_list = tree.xpath("//@*")
(3)定位文本
从任意位置定位title
元素的文本节点:
title_text = tree.xpath("//title/text()") print(title_text)
运行结果如下图所示:
我们还可以从任意位置定位所有文本节点:
all_text = tree.xpath("//text()") print(all_text)
运行结果如下图所示:
其中,“\n”是换行符,被当做文本节点返回,如果仅需要与book相关的文本信息,其路径表达式应写作:
book_text = tree.xpath("//book/*/text()") print(book_text)
运行结果如下图所示:
你以为这就是XPath的全部功能了?
事实上,XPath结合运算符能够对更复杂的XML文本进行精确地定位,远远不是一两篇文章就能说的清楚的,如果你觉得本文对你有帮助的话,可以给作者点赞加关注,后续会分享更多干货给大家,有问题也可以直接找dingyu-003,或者加2931934545有免费资料领取,千万别错过哦!