html解析库BeautifulSoup

安装:

apt  install python-bs4

pip install beautifulsoup4

下载源码:https://pypi.python.org/pypi/beautifulsoup4/  之后使用python  setup.py install安装

 

apt  install python-lxml

easy_install  lxml

pip install  lxml

 

apt  install  python-html5lib

easy_install  html5lib

pip  install  html5lib

 

解析器比较

解析器 使用方法 优势

劣势

python标准库 BeautifulSoup(markup,"html.parser")

python的内置标准库

执行速度适中

文档容错能力强

python2.7.3或者3.2.2之前的版本文档容错能力差
lxml  html解析器 BeautifulSoup(markup,"lxml")

速度快

文档容错能力强

需要安装C语言库
lxml html解析器

BeautifulSoup(markup,["lxml","xml"])

BeautifulSoup(markup,"xml")

速度快

唯一支持xml的解析器

需要安装C语言库
html5lib BeautifulSoup(markup,"html5lib")

最好的容错性

以浏览器的方式解析文档

生成html5格式文档

速度慢

不依赖外部扩展

来源:python爬虫开发与项目实战

 

 

上一篇:请求服务器和解析数据几种实现方式


下一篇:我为什么不能在“请求”中循环通过“有效载荷”来迭代我的网页抓取?