常用介绍:
pip install beautifulsoup4 # 安装模块 from bs4 import BeautifulSoup # 导入模块 soup = BeautifulSoup(html, 'html.parser') # 解析网页,得到soup对象
soup.find(tag) # 查找标签,并返回找到的第一个标签
soup.find_all(tag) # 查找所有标签,并返回所有标签的列表
soup.get_text(tag) # 获得标签中的文本内容
soup.get(tag) # 获得标签的属性内容
CSS选择器:
from bs4 import BeautifulSoup soup.select("title") # 选择为“title”的标签
soup.select("body a") # 通过标签逐层查找
soup.select("head > title") # 找到某个标签下的直接子标签
soup.select(".sister") # 通过CSS的类名查找
soup.select("#link1") # 通过标签的id查找
soup.select("a[href]") # 通过是否存在某个属性来查找
soup.select("p a[class]"), soup.select("p a[href]"), soup.select("p a[id]"), soup.select("p a[class=sister]") # 引号内部不需要再加引号了