11.bs4简单的使用

bs4是一个HTML/XML的解析器,其主要功能是解析和提取HTML/XML数据。它不仅支持CSS选择器,而且支持Python标准库中的HTML解析器,以及lxml的XML解析器。通过使用这些转化器,实现了惯用的文档导航和查找方式,节省了大量的工作时间,提高了开发项目的效率。

一、构建 BeautifulSoup对象

from bs4 import BeautifulSoup
soup=BeautifulSoup(html, ‘lxml’)

上述示例中,在创建BeautifulSoup实例时共传入了两个参数。其中,第一个参数表示包含被解析HTML文档的字符串;第二个参数表示使用Rml解析器进行解析。

目前,bs4 支持的解析器包括Python标准库、lxml 和html5lib

解析器 参数
Python标准库 ‘html.parser’
lxml HTML 解析器 ‘ lxml’
html5lib ‘html5lib ’

完整代码

from urllib import request

from bs4 import BeautifulSoup

html = request.urlopen("http://www.lctvu.sd.cn/xwzx/xyxw.htm") #执行请求

soup= BeautifulSoup(html,'lxml')    #将请求结果传递给bs构造对象

# print(soup.getText)           #输出整个bs的内容

li=soup.select("#right .min_right_new ul li")

for tag in li:

    print(tag.a.get_text()+":"+tag.span.get_text())
上一篇:request + beautifulsoup + openpyxl + 使用


下一篇:数据解析基础之BeautifulSoup