Beautiful Soup 是一个模块,用于从 HTML 页面中提取信息(用于这个目的时,
它比正则表达式好很多)。BeautifulSoup 模块的名称是 bs4(表示 Beautiful Soup,第 4 版)。要安装它,需要在命令行中运行 pip install
beautifulsoup4(关于安装第三方模块的指导,请查看附录 A)。虽然安装时使用的名字是 beautifulsoup4,但要导入它,就使用 import bs4。
在本章中,Beautiful Soup 的例子将解析(即分析并确定其中的一些部分)硬盘上的一个HTML 文件。在 IDLE 中打开一个新的文件编辑器窗口,输入以下代码,并
保存为 example.html。或者,从 http://nostarch.com/automatestuff/下载它。
<!-- This is the example.html example file. -->
<html><head><title>The Website Title</title></head>
<body>
<p>Download my <strong>Python</strong> book from <a href="http:// inventwithpython.com">my
website</a>.</p>
<p class="slogan">Learn Python the easy way!</p>
<p>By <span id="author">Al Sweigart</span></p>
</body></html>