1 常见的HTTP方法有哪些?
- GET:请求指定的页面信息,返回实体主体;
- HEAD:类似于get请求,只不过返回的响应中没有具体的内容,用于捕获报头;
- POST:向指定资源提交数据进行处理请求(比如表单提交或者上传文件),。数据被包含在请求体中。
- PUT:从客户端向服务端传送数据取代指定的文档的内容;
- DELETE:请求删除指定的页面;
- CONNNECT:HTTP1.1协议中预留给能够将连接方式改为管道方式的代理服务器;
- OPTIONS:允许客户端查看服务器的性能; TRACE:回显服务器的请求,主要用于测试或者诊断。
2 说一说redis-scrapy中redis的作用?
它是将scrapy框架中Scheduler替换为redis数据库,实现队列管理共享。
优点:
- 可以充分利用多台机器的带宽;
- 可以充分利用多台机器的IP地址。
3 遇到的反爬虫策略以及解决方法?
- 通过headers反爬虫:自定义headers,添加网页中的headers数据。
- 基于用户行为的反爬虫(封IP):可以使用多个代理IP爬取或者将爬取的频率降低。
- 动态网页反爬虫(JS或者Ajax请求数据):动态网页可以使用 selenium + phantomjs 抓取。
- 对部分数据加密处理(数据乱码):找到加密方法进行逆向推理。
4 如果让你来防范网站爬虫,你应该怎么来提高爬取的难度 ?
- 判断headers的User-Agent;
- 检测同一个IP的访问频率;
- 数据通过Ajax获取;
- 爬取行为是对页面的源文件爬取,如果要爬取静态网页的html代码,可以使用jquery去模仿写html。
5 scrapy分为几个组成部分?分别有什么作用?
分为5个部分;Spiders(爬虫类),Scrapy Engine(引擎),Scheduler(调度器),Downloader(下载器),Item Pipeline(处理管道)。
- Spiders:开发者自定义的一个类,用来解析网页并抓取指定url返回的内容。
- Scrapy Engine:控制整个系统的数据处理流程,并进行事务处理的触发。
- Scheduler:接收Engine发出的requests,并将这些requests放入到处理列队中,以便之后engine需要时再提供。
- Download:抓取网页信息提供给engine,进而转发至Spiders。
- Item Pipeline:负责处理Spiders类提取之后的数据。 比如清理HTML数据、验证爬取的数据(检查item包含某些字段)、查重(并丢弃)、将爬取结果保存到数据库中