beautiful soup库作为python第三方库,可以对html语言进行很好的树形解析,“美味汤”的直译也是在说能够把文档像一锅汤一样进行调制。
beautiful soup库的基本元素有:
基本元素 | 说明 |
Tag | 标签,最基本的信息组织单元 |
Name | 标签的名字 tag.name |
Attributes | 标签的属性(字典形式) tag.attrs |
NavigableString | 标签内非属性字符串 tag.string |
Comment | 标签内注释 |
beautiful soup库的内容遍历方法
下行遍历: .contents 获得子节点的列表(可以用列表的方式进行处理)
.children 获得子节点的迭代类型,用于循环遍历子节点
for child in soup.body.children://遍历儿子节点
print(child)
.descendants 获得子孙节点的迭代类型,包含所有子孙节点,用于循环遍历
上行遍历: .parent 返回节点的父亲标签
.parents 返回节点先辈标签,可以用于循环遍历 (在遍历时会遍历到 soup本身,soup本身没有先辈标签)
平行遍历: .next_sibling 返回按照html文本顺序的下一个平行节点标签
.previous_sibling 返回按照html文本顺序的上一个平行节点标签
.next_siblings 迭代类型,返回按照html文本顺序的后续所有平行节点标签
.previous_siblings 迭代类型,返回按照html文本顺序的前续所有平行节点标签
最后有一个prettify方法可以对html文档或者html标签进行格式化处理。