解析库的使用-xpath-beautifulsoup-pyquery

2023-12-25 19:49:10

xpath(lxml 库）

初始化etree对象

From lxml import etree

text = '''

<div>

<ul>

<li class="item-0"><a href=”link1. html”>first item</a><li>

<li class=” item-1”>< a href=”link2.html”> second item</a><li>

<li class=” item-inactive” >< a href="link3.html”>third item</ a></h>

<li class=” item-1 item-0”><a href="link4.html'’>fourth item</a><li>

</ul>

</div>

‘’’

//加载字符串数据或者响应到的数据

Html = etree.HTML(text)

//可以看到该字符串最后一个li标签没有闭合，采用toString()方法修复该标签

Html = Etree.toString(html). 结果是bytes类型

//加载本地文件中的数据进行解析

Html = etree.parse(filepath,etree.HTMLParser())

//获取上述text所有节点

etree.xpath(“//*”)

//获取第一个li节点

Etree.xpath(“/div/ul/li[1]”)

//获取第一个li标签内a标签的文本数据

Etree.xpath(//li[1][@class=“item-0”]/a[@href = “link1.html]/text())

//获取li标签内的子孙标签内的文本数据

Html.xpath(//li[@class=“item-0]//text())

//获取父节点和属性

Html.xpath(//a[@href=“link2.html”]/../@class)

//有时某个节点的属性有多个

Html.xpath(//li[contains(@class,”item1”)]/a/text())

//多属性匹配

Html.xpath(//li[@class=“item-0” and @id=“a”]/a/@href)

//节点轴选择

ancester::选择器——-获取当前选中标签的所有父标签

child::选择器———获取所有选中节点的直接子节点

Attribute::选择器——-获取所有选中节点的属性

Beautiful Soup库

beautiful soup 会自动将输入的文档转为unicode 编码格式，自动将输出的文档转为utf8的格式，无需考虑编码的问题，除非文档自身没有指定编码，指定一个编码格式就ok

(lxml解析器可以解析HTML，xml，解析的速度快，容错能力强）

//导入BeautifulSoup，lxml

from bs4 import BeautifulSoup

Import lxml

//文本数据

html = “”“

<html> <head>< title>The Dormouse ’s story</title></head>

<body>

<p class=”title" name="dromouse”>< b>The Dormouse ’s story</b></p>

<p class=”story’'>Once upon a time there were three little sisters; and their names were

<a href=” http://example.com/elsie” class= " sister” id=”linkl”>< ! - Elsie … >< la>,

<a href=” http://example.com/lacie ” class=”sister” id=”link2”> Lacie</a> and

<a href="http://example.com/tillie" class=”sister” id=”link3 ”>Tillie</a> ;

and they lived at the bottom of a well .</p>

“”“

//初始化

From bs4 import BeautifulSoup

//此步骤会将html中不标准的标签，进行标准化输出

Soup = BeautifulSoup(html,’lxml)

//将文档以标准缩紧的格式输出

print(soup.prettify())

//节点选择，直接soup对象+节点名称（标签名称）就可以获取该节点，获取该节点的文本数据用string属性

//获取title节点

Soup.title

//获取title节点内的文本数据string属性或者get_text()方法，两者功能完全一致

Soup.title.string

//获取p标签—-此时返回的是文档中第一个p标签内容（只会返回第一个选中的节点）

Soup.p

//调用name属性返回节点的名称（标签名称）

Soup.title.name

//提取选中节点的属性，attrs不携带属性返回选中节点的所有属性值，携带参数返回特定属性值

Soup.p.attrs. //返回的是一个字典，如果一个属性有多个值，那么该键所对应的值是一个列表

Soup.p.attrs[“title”]

//嵌套选择—每个返回结果都是bs4.element.tag类型

//选择head标签内的title标签

Soup.head.title

//contents属性与children属性，descendants

//content与children属性一致，返回选中节点内的所有直接子节点，contents返回的是列表，children返回的是生成器

Soup.body.contents soup.body.children

//descendants将返回选中节点的子孙节点，返回一个生成器

//获取父节点

Soup.p.parent. ——直接父节点

soup.p.parents——返回所有的父节点和祖先节点。返回结果是一个生成器

//获取兄弟节点

Soup.p.next_sibling —- soup.p.previous_sibling 返回的p节点的下一个和上一个兄弟节点

Soup.p.next_siblings ——soup.p.previous_siblings 返回的是所有的下兄弟节点和上兄弟节点

//方法选择器

find_all(name,attrs,recursive,text,**kwargs) 返回需有符合条件的节点，返回结果是一个列表形式

//选择节点名称name

soup.find_all(“p”)

//选择属性,参数类型是字典形式

Soup.find_All(attrs={“id”:”aa”})

//text属性可以传入字符串或者正则表达式-返回节点中的文本符合该条件的文本列表

Soup.find_all(text=re.compile(“text”))

//find()方法与find_all接口一致，只不过find返回第一个匹配成功的节点，后者返回所有匹配的列表

//css选择器

//select()方法返回所有符合css选择器的节点列表—-也可以进行嵌套选择

Soup.select(“#id .class tag”)

//获取属性

Soup.ul[“id”] ———-soup.ul.attrs[“id”]

pyquery

From pyquery import PyQuery as pq

初始化：

Doc = PyQuery(参数）:这里的参数可以是字符串，文件名（需要指定参数为filename），url（这里的url代表请求网页的url，原理：先对该url发起请求，将获得响应对象的数据作为字符串参数参与初始化

例如：PyQuery(url) 相当于 PyQuery（requests.get(url).text)

选择器的使用：

例如：doc（’#contain .abs p’) 代表选择id为contain下class为abs下的p标签。

查找子节点时需要用到find方法，传入的参数时css选择器（范围时子孙节点）

例如：ul = doc(‘.ul’)

li = ul.find(“li”)

代表先选中calss为ul的标签，在获取其下的li标签

查找子节点的时候可以使用children方法（范围是子节点）

例如：item.children() 返回item的所有子节点，

Item.children(“#a”) 返回item中id为a的子节点

查找父节点方法parent （只会返回直接点父节点，不会返回祖先节点）

例如：parent = item.parent() 返回item的父节点

查找祖先节点parents

例如：item.parents（）返回父节点和所有的祖先节点

item.parents(“#a”) 返回id为a的祖先节点

查找兄弟节点siblings方法

例如：item.siblings()返回item 的所有兄弟节点

item.siblings(“#a”) 返回item兄弟节点中id为a 的兄弟节点

遍历：在调用相关方法后可能得到一个节点或多个节点，一个节点可以对其直接打印或转为字符串，但多个节点需要用items()方法将其转为生成器进行遍历

获取节点的属性attr()方法

例如 item.attr(“href) 或者 item.attr.href 效果相同，当item是一个节点时，必然返回相应的属性值，但是如果item为多个节点，则只会返回第一个节点的属性，如果想要返回所有节点的属性，可以采用上述的遍历的方法

获取节点的文本值和html文本

例如 item.text(), item.html() ,前者回返回当前节点的所有文本数据，在item为多个节点时同样返回每个节点的文本数据，每个节点之间的文本数据用空格分开，但html方法，在节点有一个的时候返回的是当前节点内的html文本，但在多个节点时只会返回第一个节点内的html文本，所以在有多个节点时需要用到遍历的方法

修改节点的属性

例如：addClass 为当前节点添加一个class,removeClass 为当前节点移除class

Attr（）方法传入一个参数时获取该属性，传入两个参数时添加属性，text（）携带参数代表添加文本数据到当前节点，html（）携带参数代表添加html文本到当前节点。

remove()方法移除选中的节点，

码农公寓

相关文章