11.5 用 BeautifulSoup 模块解析 HTML

Beautiful Soup 是一个模块,用于从 HTML 页面中提取信息(用于这个目的时,
它比正则表达式好很多)。BeautifulSoup 模块的名称是 bs4(表示 Beautiful  Soup,第 4 版)。要安装它,需要在命令行中运行 pip install 
beautifulsoup4(关于安装第三方模块的指导,请查看附录 A)。虽然安装时使用的名字是 beautifulsoup4,但要导入它,就使用 import bs4。
在本章中,Beautiful Soup 的例子将解析(即分析并确定其中的一些部分)硬盘上的一个HTML 文件。在 IDLE 中打开一个新的文件编辑器窗口,输入以下代码,并

保存为 example.html。或者,从 http://nostarch.com/automatestuff/下载它。
<!--  This  is  the  example.html  example  file.  -->

<html><head><title>The  Website  Title</title></head>
<body>
<p>Download  my  <strong>Python</strong>  book  from  <a  href="http:// inventwithpython.com">my  
website</a>.</p>
<p  class="slogan">Learn  Python  the  easy  way!</p>
<p>By  <span  id="author">Al  Sweigart</span></p>
</body></html>

上一篇:如何利用Redis实现分布式Session?


下一篇:使用BeautifulSoup库进行爬虫