HTML解析器BeautifulSoup

2023-08-29 23:52:22

BeautifulSoup是Python的一个库，可解析用urllib2抓取下来的HTML

可以利用 pip 来安装，在Python程序中导入

pip install beautifulsoup4

from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup(html)

拿到第一个标签的内容：.title()

想要获取的内容为utf-8格式需要使用.decode方法

print str(soup.title).decode('utf-8')

获取某标签的某属性值：find_all( name , attrs , recursive , text , **kwargs )

p_detail = soup.find("p")

码农公寓