轻轻学爬虫—scrapy框架巧用1
何为爬虫,爬虫就是顺着网线获取指定网站的关键数据。
如何通过网线判断这是张三家还是李四家呢?这就引出来概念ip或者域名,比如我们在地址栏上敲入www.baidu.com我们进入了百度家里。每个地址代表了一个家庭,一个家庭又有不同的东西。比如,我进入京东家里,他们家就有很多的商品,进入微博家里,他们家就有好多文章。当我们需要某些数据时候,我们就去借鉴一下。
爬虫就是拿别人的数据,我们要做一个善意的爬虫。本身我们借鉴别人的数据就不厚道了,如果在借鉴时候影响了别人的正常工作就不好了。我们的原则就是以别人最小的成本去拿到我们的数据。控制好我们爬虫的速度。
爬虫大致分为以下几步:
Python中我们可以使用requests模块一步步完成,这样显然违背Python的原则,人生苦短,我用Python。Python更多的时候只需要添砖加瓦就可以了,简单的补一补就可以使用。这里我们使用Python中的爬虫框架scrapy。
scrapy还是要使用经典图
1234步骤可以理解为顺序,看个热闹就行,估计初学的你也看不明白。这个图我想放在开篇,当你掌握后面的内容之后,回头再看这个图相信你会有不一样的理解。
scrapy有完整的功能模块,不需要我们写太多的东西,只需要补充就够了。
本节是scrapy的介绍和讲解,不会过多的介绍框架里面的内容,本节课重点就是安装scrapy。在mac和linux中安装不是什么难事。使用
pip install scrapy
但是windows安装你会遇到各种各样的问题。安装也是学习的过程,小伙伴们先尝试着安装,如果安装中出现什么问题和私信或者留言评论。
码字不易,欢迎大家在评论区留言,收藏。或者加入群聊一起进步学习。