BeautifulSoup


from bs4 import BeautifulSoup

f = open('./test.html', 'rb')
html = f.read()

# bs 代表整个HTML对象
bs = BeautifulSoup(html, 'html.parser')

print(bs.title)  # 获得 HTML 中的<title>标签 ,<title>测试报告</title>
print(f"bs.tiele 的类型:{type(bs.title)}")  # out :bs.tiele 的类型:<class 'bs4.element.Tag'>

# 获得<title> 标签中的值
print(bs.title.string)
print(f"bs.tiele.string 的类型:{type(bs.title.string)}")  # out: s.tiele.string 的类型:<class 'bs4.element.NavigableString'>

# 获得第一个<meta> 标签的所有属性
print(bs.meta.attrs)

# 返回一个列表,包含了<head>标签中的所有内容
print(bs.head.contents)

# print(bs.text)  获得所有标签中的值

上一篇:PDF附加字体和不附加字体


下一篇:rjjc