0.写在前面
在python的爬虫中,经常需要用到强大的beautifulsoup库,如之前写的股票数据的爬取中就用到了它。在这里,将详细总结beautifulsoup的用法,来巩固相关知识。以下便是我从各种网站搜集的资料,在这里做一个汇总。(我从不生产知识,我只是知识的搬运工)
1.基本介绍
2.安装/引用
安装:win平台中‘以管理员身份运行’cmd,执行pip install beautifulsoup4
即可安装
引用:from bs4 import BeautifulSoup
或import bs4
即可
3.使用方法
如果不想输出内容的注释,可以写一个if语句:
if type(newsoup.b.string)==element.Comment:
print (newsoup.b.string)
bs4库将任何HTML输入都变成utf-8编码,python3.x默认支持编码是utf-8编码,解析无障碍
本文参考中国大学MOOC / kikaylee的专栏