bs4是一个HTML/XML的解析器,其主要功能是解析和提取HTML/XML数据。它不仅支持CSS选择器,而且支持Python标准库中的HTML解析器,以及lxml的XML解析器。通过使用这些转化器,实现了惯用的文档导航和查找方式,节省了大量的工作时间,提高了开发项目的效率。
一、构建 BeautifulSoup对象
from bs4 import BeautifulSoup
soup=BeautifulSoup(html, ‘lxml’)
上述示例中,在创建BeautifulSoup实例时共传入了两个参数。其中,第一个参数表示包含被解析HTML文档的字符串;第二个参数表示使用Rml解析器进行解析。
目前,bs4 支持的解析器包括Python标准库、lxml 和html5lib
解析器 | 参数 |
---|---|
Python标准库 | ‘html.parser’ |
lxml HTML 解析器 | ‘ lxml’ |
html5lib | ‘html5lib ’ |
完整代码
from urllib import request
from bs4 import BeautifulSoup
html = request.urlopen("http://www.lctvu.sd.cn/xwzx/xyxw.htm") #执行请求
soup= BeautifulSoup(html,'lxml') #将请求结果传递给bs构造对象
# print(soup.getText) #输出整个bs的内容
li=soup.select("#right .min_right_new ul li")
for tag in li:
print(tag.a.get_text()+":"+tag.span.get_text())