学习爬虫心得体会

 什么是爬虫:使用编程语言所编写的一个用于爬取Web或Appd数据的应用程序。

爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

爬虫的基本流程:

学习爬虫心得体会

 

1、导入两个库,一个requests用于请求,一个beautifulsoup4用于网页解析

2、请求网页,获得源代码

3、初始化soup对象,使其可以调用更简单易用的方法

4、用浏览器打开网页,右键-检查,使用那个鼠标定位你要找的资源的位置

5、分析那个位置的源代码,找到合适的用于定位的标签及属性

6、编写解析代码,获得想要的资源

我们平时在浏览网页的时候,在浏览器里输入一个网址,然后敲击回车,我们就会看到网站的一些页面,那么这个过程实际上就是这个浏览器请求了一些服务器然后获取到了一些服务器的网页资源,然后我们看到了这个网页。

请求呢就是用程序来实现上面的过程,就需要写代码来模拟这个浏览器向服务器发起请求,然后获取这些网页资源。那么一般来说实际上获取的这些网页资源是一串HTML代码,这里面包含HTML标签,还有一些在浏览器里面看到的文字。那么我们要提取的一些数据就包含在这些HTML文本里面。我们要做的下一步工作就是从这些文本里提取我们想要的一些信息(比如一段话,一个手机号,一个文字这类的),这就是我们提取的一个过程。提取出来之后呢我们就把提取出来的信息存到数据库啊文本啊这类的。这就是完成了一个数据采集的过程。

我们写完程序之后呢就让它一直运行着,它就能代替我们浏览器来向服务器发送请求,然后一直不停的循环的运行进行批量的大量的获取数据了,这就是爬虫的一个基本的流程

上一篇:博客园屏蔽广告


下一篇:Crawler - PhantomJS