跟大家分享一下面试中关于爬虫方面相关的问题。
——————————基础知识——————————
什么是爬虫?
请求网站并提取数据的自动化程序
爬虫基本流程?
- 发起请求(scrapy发送get、post请求),可能包含请求头等信息,等待服务器相应
- 获取服务器响应内容,可能是网页文本(html、json代码),图片二进制、视频二进制等
- 解析内容(正则、xpath、json解析等 )
- 保存数据(本地文件、数据库等)
遇到过什么反爬虫措施,如何解决?
1. 基于用户行为,同一个ip段时间多次访问同一页面
利用代理ip,构建ip池
2. 请求头里的user-agent
构建user-agent池(操作系统、浏览器不同,模拟不同用户)
3. 动态加载(抓到的数据和浏览器显示的不一样),js渲染
模拟ajax请求,返回json形式的数据
selenium / webdriver 模拟浏览器加载 (chromedriver安装)
如何提高爬取效率?
爬虫下载慢主要原因是阻塞等待发往网站的请求和网站返回
- 采用异步与多线程,扩大电脑的cpu利用率;
- 采用消息队列模式
- 提高带宽
request请求(封装http请求)方式中的post、get有什么区别?
- GET一般用于获取/查询资源信息,而POST一般用于更新资源信息
- get是在url中传递数据,数据放在请求头中,post是在请求体中传递数据
- get安全性非常低,post安全性较高,但是get执行效率却比Post方法好
xpath、css选择器及返回类型区分?
response.selector.xpath(css) 为了方便,其中的selector可以省略
返回:由selector组成的list,每个元素都是一个selector对象
1、SelectorList类型
case = response.xpath('//*[@class="content"]/ul/li')
2、List类型
case = response.xpath('//*[@class="content"]/ul/li').extract()
3、str类型
case = ''.join(response.xpath('//*[@class="content"]/ul/li').extract())
extract()[0]选取第一个元素, extract_first()能达到一样的效果
模拟登陆原理?
因为http请求是无状态的,网站为了识别用户身份,需要通过cookie记录用户信息(用户、密码),这些信息都会在手动登陆时记录在post请求的form-data里,那么在爬虫时候只需要将这些信息添加到请求头里即可。
验证码?
可以将验证码下载到本地人工识别填入
分布式原理?
多台机器多个 spider 对多个 url 同时进行处理
——————————框架知识——————————
用的什么框架,为什么选择这个框架?
scrapy,只需要实现少量代码,就能够快速的抓取到数据内容。Scrapy 使用了 Twisted异步网络框架来处理网络通讯,可以加快下载速度,不用自己去实现异步框架,并且包含各种中间件接口,可以灵活的完成各种需求。
scrapy的基本结构?
链接:https://zhuanlan.zhihu.com/p/35794035
来源:知乎
著作权归作者所有,转载请联系作者获得授权。
-
引擎(Scrapy)
用来处理整个系统的数据流处理, 触发事务(框架核心) -
调度器(Scheduler)
用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址 -
下载器(Downloader)
用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的) -
爬虫(Spiders)
爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面 -
项目管道(Pipeline)
负责处理爬虫从网页中抽取的实体,主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后,将被发送到项目管道,并经过几个特定的次序处理数据。 -
下载器中间件(Downloader Middlewares)
位于Scrapy引擎和下载器之间的框架,主要是处理Scrapy引擎与下载器之间的请求及响应。 -
爬虫中间件(Spider Middlewares)
介于Scrapy引擎和爬虫之间的框架,主要工作是处理蜘蛛的响应输入和请求输出。 -
调度中间件(Scheduler Middewares)
介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。
scrapy框架执行爬虫的流程?
- 引擎从调度器中取出一个链接(URL)用于接下来的抓取
- 引擎把URL封装成一个请求(Request)传给下载器
- 下载器把资源下载下来,并封装成应答包(Response)
- 爬虫解析Response
- 解析出实体(Item),则交给实体管道进行进一步的处理
- 解析出的是链接(URL),则把URL交给调度器等待抓取
———————————数据库———————————
关系型数据库和非关系型数据库的区别?
关系型:MySQL、Oracle、SQL Server、DB2等
优势:
- 支持复杂查询。可以用SQL语句方便的在一个表以及多个表之间做非常复杂的数据查询
- 事务支持。使得对于安全性能很高的数据访问要求得以实现
非关系型:MongoDB、Redis等
优势:
- 性能高。NOSQL是基于键值对的,可以想象成表中的主键和值的对应关系,而且不需要经过SQL层的解析,所以性能非常高
- 可扩展性。同样也是因为基于键值对,数据之间没有耦合性,所以非常容易水平扩展
数据库索引(类似于书的目录)
类型:
(1)普通索引:没有任何限制
(2)唯一索引:不允许建立索引的列有重复值,但可以有空值
(3)主索引:特殊的唯一索引,不允许有空值
(4)候选索引:唯一性,可以有多个候选索引
优点:加快数据查找的效率
缺点:
- 占用磁盘空间
- 增加了插入和删除的操作时间。一个表拥有的索引越多,插入和删除的速度越慢,如要求快速录入的系统不宜建过多索引
索引实现方式?
- B+树
- 散列索引
- 位图索引
SQL里面设置复合索引与单个普通索引的区别?
- 复合索引只对和索引中排序相同或相反的order by 语句优化
- 如果存在一个多列索引,任何最左面的索引前缀能被优化器使用。所以联合索引的顺序不同,影响索引的选择,尽量将值少的放在前面。
数据库视图?
视图是从一个或多个表(视图)导出的表,视图与表不同,视图是一个虚表,即视图所对应的数据不进行实际存储,数据库中只存储视图的定义,在对视图的数据进行操作时,系统根据视图的定义去操作与视图相关联的基本表
优点:
- 简化了操作,把经常使用的数据定义为视图
对于一个查询动作频繁发生的话,我们可以创建视图简化
- 安全性,用户只能查询和修改能看到的数据
将基表中重要的字段信息,可以不通过视图给用户,用户对视图不可以随意的更改和删除,可以保证数据的安全性
- 逻辑上的独立性,屏蔽了真实表的结构带来的影响
视图可以使应用程序和数据库表在一定程度上独立。如果没有视图,应用一定是建立在表上的。有了视图之后,程序可以建立在视图之上,从而程序与数据库表被视图分割开来
缺点:
- 性能差
数据库必须把视图查询转化成对基本表的查询,如果这个视图是由一个复杂的多表查询所定义,那么,即使是视图的一个简单查询,数据库也要把它变成一个复杂的结合体,需要花费一定的时间
- 修改限制
当用户试图修改视图的某些信息时,数据库必须把它转化为对基本表的某些信息的修改,对于简单的视图来说,这是很方便的,但是,对于比较复杂的试图,可能是不可修改的
数据库事务?
数据库事务是指作为单个逻辑工作单元执行的一系列操作,要么完全执行,要么完全不执行
性质:
- 原子性
- 一致性
- 隔离性
- 持久性
三级模式两层映射 ?
- 外模式
外模式也称为用户模式,它是数据库用户(包括应用程序员和最终用户)能够看见和使用的局部数据的逻辑结构和特征的描述,是数据库用户的数据视图,是与某一应用有关的数据的逻辑表示。外模式是模式的子集,一个数据库可以有多个外模式。
- 模式
模式也称为逻辑模式或概念模式,是数据库中全体数据的逻辑结构和特征的描述,是所有用户的公共数据视图。一个数据库只有一个模式,模式位于三级结构的中间层。
- 内模式
内模式也称为存储模式,一个数据库只有一个内模式,它是数据物理结构和存储方式的描述,是数据在数据库内部的表示方式。
好处:有效地组织、管理数据,提高了数据库的逻辑独立性和物理独立性
- 外模式/模式映射
当模式被改变时,数据库管理员对各个外模式/模式映射做相应的改变,可以使外模式保持不变。这样,依据数据外模式编写的应用程序就不用修改,保证了数据与程序的逻辑独立性
- 模式/内模式映射
数据库的存储结构被改变时,数据库管理员对模式/内模式映射做相应的改变,可以使模式保持不变,应用程序相应地也不做变动。这样,保证了数据与程序的物理独立性
MySQL用户权限、库权限、表权限的控制?
用户权限:连接数据库需要用户名、密码
库权限:
#给用户hehe赋予操作test库的所有权限
grant all on test.* to hehe@'localhost' identified by '123456';
表权限:
#给用户hehe操作test库goods表的insert,select,update的权限
grant insert,select,update on test.goods to hehe@'localhost' identified
——————————协议方面———————————
http、https协议有什么区别?
- http协议是超文本传输协议,被用于在web浏览器和网站服务器之间传递信息,以明文方式发送内容,不对数据加密,很容易被黑客入侵,安全性不高
- 为了数据传输的安全,https在http的基础上加入了SSL协议,SSL依靠ca证书来验证服务器的身份,为浏览器和服务器之间的通信加密
http状态码?
表示网页服务器http响应状态的3位数字代码
- 2开头 (请求成功)表示成功处理了请求的状态代码
- 3开头 (请求被重定向)表示要完成请求,需要进一步操作
- 4开头 (客户端错误)这些状态代码表示请求可能出错,妨碍了服务器的处理
- 5开头(服务器错误)这些状态代码表示服务器在尝试处理请求时发生内部错误
常见状态码:
200 (成功) 服务器已成功处理了请求
403 (禁止) 服务器拒绝请求
404 (未找到) 服务器找不到请求的网页
408 (请求超时) 服务器等候请求时发生超时
爬虫协议?
Robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。
欢迎大家补充交流~