安装:
apt install python-bs4
pip install beautifulsoup4
下载源码:https://pypi.python.org/pypi/beautifulsoup4/ 之后使用python setup.py install安装
apt install python-lxml
easy_install lxml
pip install lxml
apt install python-html5lib
easy_install html5lib
pip install html5lib
解析器比较
解析器 | 使用方法 | 优势 | 劣势 |
---|---|---|---|
python标准库 | BeautifulSoup(markup,"html.parser") | python的内置标准库 执行速度适中 文档容错能力强 |
python2.7.3或者3.2.2之前的版本文档容错能力差 |
lxml html解析器 | BeautifulSoup(markup,"lxml") | 速度快 文档容错能力强 |
需要安装C语言库 |
lxml html解析器 | BeautifulSoup(markup,["lxml","xml"]) BeautifulSoup(markup,"xml") |
速度快 唯一支持xml的解析器 |
需要安装C语言库 |
html5lib | BeautifulSoup(markup,"html5lib") | 最好的容错性 以浏览器的方式解析文档 生成html5格式文档 |
速度慢 不依赖外部扩展 |
来源:python爬虫开发与项目实战