1 BeautifulSoup概述
beautifulSoup是勇python语言编写的一个HTML/XML的解析器,它可以很好地处理不规范标记并将其生成剖析树(parse tree);
它提供简单而又常见的导航(navigating),搜索及修改剖析树,此可以大大节省编程时间
2 BeautifulSoup安装
2.1 安装
pip install beautifuilsoup4
当安装不成功时,首先查看windows的命令提示符是否是以管理员身份打开的。
然后再检查其他因素
2.2 使用
from bs4 import BeautifulSoup
这是由于“造”库函数所致,其他引用方法易致错。
没有安装成功!当时显示安装包已经在文件夹中
C:\Windows\system32>pip install beautifulsoup4 Requirement already satisfied: beautifulsoup4 in c:\users\admin\appdata\local\programs\python\python36-32\lib\site-packages (4.6.0) C:\Windows\system32>python Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 16:07:46) [MSC v.1900 32 bit (Intel)] on win32 Type "help", "copyright", "credits" or "license" for more information. >>> import bs4 import BeautifulSoup File "<stdin>", line 1 import bs4 import BeautifulSoup ^ SyntaxError: invalid syntax >>> import BeautifulSoup Traceback (most recent call last): File "<stdin>", line 1, in <module> ModuleNotFoundError: No module named 'BeautifulSoup' >>>
3 beautifulsoup与lxml比较
lxml C实现,只会局部遍历,快; 复杂,语法不太友好;
BS4 Python实现,会加载整个文档,慢; 简单,API人性化;
详细信息可以参考beautifulsoup文档:Beautiful Soup 4.2.0 文档