轻轻学爬虫—scrapy框架巧用1

轻轻学爬虫—scrapy框架巧用1

何为爬虫,爬虫就是顺着网线获取指定网站的关键数据。

如何通过网线判断这是张三家还是李四家呢?这就引出来概念ip或者域名,比如我们在地址栏上敲入www.baidu.com我们进入了百度家里。每个地址代表了一个家庭,一个家庭又有不同的东西。比如,我进入京东家里,他们家就有很多的商品,进入微博家里,他们家就有好多文章。当我们需要某些数据时候,我们就去借鉴一下。

爬虫就是拿别人的数据,我们要做一个善意的爬虫。本身我们借鉴别人的数据就不厚道了,如果在借鉴时候影响了别人的正常工作就不好了。我们的原则就是以别人最小的成本去拿到我们的数据。控制好我们爬虫的速度。

爬虫大致分为以下几步:

轻轻学爬虫—scrapy框架巧用1

Python中我们可以使用requests模块一步步完成,这样显然违背Python的原则,人生苦短,我用Python。Python更多的时候只需要添砖加瓦就可以了,简单的补一补就可以使用。这里我们使用Python中的爬虫框架scrapy。

scrapy还是要使用经典图

轻轻学爬虫—scrapy框架巧用1

1234步骤可以理解为顺序,看个热闹就行,估计初学的你也看不明白。这个图我想放在开篇,当你掌握后面的内容之后,回头再看这个图相信你会有不一样的理解。

scrapy有完整的功能模块,不需要我们写太多的东西,只需要补充就够了。

本节是scrapy的介绍和讲解,不会过多的介绍框架里面的内容,本节课重点就是安装scrapy。在mac和linux中安装不是什么难事。使用

pip install scrapy

但是windows安装你会遇到各种各样的问题。安装也是学习的过程,小伙伴们先尝试着安装,如果安装中出现什么问题和私信或者留言评论。

码字不易,欢迎大家在评论区留言,收藏。或者加入群聊一起进步学习。

上一篇:基于python的凤凰网网络爬虫设计开题报告


下一篇:2021-10-19