Python 爬虫实战入门(下)

上一篇(

Python 爬虫实战入门(下)

 

跳转任意门)我们通过requests将豆瓣电影top250的网页内容都爬取下来了,但是爬取的是整个网页内容,我们需要对这些内容进行分析,只将我们需要的内容保存下来,不需要的就直接丢弃。

 

那在这呢,给大家介绍另外一个第三方库Beautiful Soup,这里是它的中文介绍:

https://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html

可以大概看一下它的介绍:Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。

 

那在这呢,咱们大概分析一下我们怎么对页面进行分析截取。

1.BeautifulSoup是基于标签的,所以我们第一步要准确定位到我们需要信息所在的标签。

2 .从定位的标签中提取我们需要的信息(一般在属性或者在string中)

3. 对于提取数据的简单处理

 

那我们照着上面的流程,对我们需要实现的程序进行分析

1. 需要准确定位到我们需要信息的标签,在这里,如果能有UI自动化基础,那就会更好理解一些,我们将标题所在的css selector拷贝出来

#content > div > div.article > ol > li:nth-child(1) > div > div.info > div.hd > a > span:nth-child(1)

 

Python 爬虫实战入门(下)

 

 

2. 确认需要的信息在text属性里

 

那我们来简单的实现一下(test3.py):

 

Python 爬虫实战入门(下)

 

 

根据打印出来的信息,我们已经可以看到,第一条信息被我们截取出来了

 

Python 爬虫实战入门(下)

 

 

我们以标题为例,再来看看每一页不同信息之间的区别

第一条:#content > div > div.article > ol > li:nth-child(1) > div > div.info > div.hd > a > span:nth-child(1)

第二条:#content > div > div.article > ol > li:nth-child(2) > div > div.info > div.hd > a > span:nth-child(1)

第三条:#content > div > div.article > ol > li:nth-child(3) > div > div.info > div.hd > a > span:nth-child(1)

可以看出来,除了标红的地方不一致之外,其他的内容一毛一样,那我们可以做以下处理(test4.py):

 

Python 爬虫实战入门(下)

 

 

根据打印信息,可以看到,当前单独页面的处理已经输出出来了

 

Python 爬虫实战入门(下)

 

 

现在单独页面处理已经完成,接下来我们结合一下上一步的不同请求操作,和上面的页面处理,将所有的页面都来处理一下,参考以下代码(test5.py):

 

Python 爬虫实战入门(下)

 

 

根据输出信息,可以看到top250的信息。到这里,其实我们的爬虫已经可以工作了。

现在,大家已经可以将豆瓣电影 top250的内容爬取下来,并提取出需要的信息,可是现在我们能看到信息并没有办法持续存储,每次需要的时候都得重新爬取。那在这呢,我们来试着将爬取出来的信息保存到本地。

 

那在这呢,我们需要借助文档写入来对当前内容进行保存,对文档写入的话,我们需要借助open函数来写入。

 

先对之前爬取出来的内容进行一下分析:

第1条信息

标题为:肖申克的救赎

评分为:9.7

标题为:希望让人*。

第2条信息

标题为:霸王别姬

评分为:9.6

标题为:风华绝代。

第3条信息

标题为:阿甘正传

评分为:9.5

标题为:一部美国近现代史。

第4条信息

标题为:这个杀手不太冷

评分为:9.4

标题为:怪蜀黍和小萝莉不得不说的故事。

 

我们可以看出来,每一条信息都是比较规整的,那我们可以将这些数据存储成csv文件。

 

那在这里就需要将之前的代码进行一下小改动(testspider.py)

 

Python 爬虫实战入门(下)

 

 

运行代码之后,可以看到当前目录下生成了一个豆瓣电影250.csv的文件,在这里要稍微注意一下,如果直接使用excel打开当前这个csv文件,会出现乱码:

 

Python 爬虫实战入门(下)

 

 

我们可以使用记事本打开之后,另存为 – 选择编码为“ANSI”:再次用excel打开,就可以看到内容了

 

Python 爬虫实战入门(下)

 

Python 爬虫实战入门(下)

 

 

到这里,我们的Python 爬虫实战入门就告一段落,希望大家学习愉快。

本文所有代码都可以在github上下载,链接地址为:

https://github.com/chrisblue0605/testspider_for_py.git

作  者:Testfan Chris

出  处:微信公众号:自动化软件测试平台

版权说明:欢迎转载,但必须注明出处,并在文章页面明显位置给出文章链接

 
上一篇:nth-child & nth-of-type讲解


下一篇:flex布局案例(骰子)