spark

2022-10-18 15:25:57

http://www.cnblogs.com/shishanyuan/p/4723604.html?utm_source=tuicool

spark presto2.0计算引擎

http://blog.csdn.net/joomlaer/article/details/45889759

这几个框架都是OLAP大数据分析比较常见的框架，各自特点如下：
presto：facebook开源的一个java写的分布式数据查询框架，原生集成了Hive、Hbase和关系型数据库，Presto背后所使用的执行模式与Hive有根本的不同，它没有使用MapReduce，大部分场景下比hive快一个数量级，其中的关键是所有的处理都在内存中完成。
Druid：是一个实时处理时序数据的Olap数据库，因为它的索引首先按照时间分片，查询的时候也是按照时间线去路由索引。
spark SQL：基于spark平台上的一个olap框架，本质上也是基于DAG的MPP，基本思路是增加机器来并行计算，从而提高查询速度。
kylin：核心是Cube，cube是一种预计算技术，基本思路是预先对数据作多维索引，查询时只扫描索引而不访问原始数据从而提速。

这几种框架各有优缺点，存在就是合理，如何选型个人看法如下：
从成熟度来讲：kylin>spark sql>Druid>presto
从超大数据的查询效率来看：Druid>kylin>presto>spark sql
从支持的数据源种类来讲：presto>spark sql>kylin>Druid

作者：iseeyou
链接：http://www.zhihu.com/question/41541395/answer/114798939
来源：知乎
著作权归作者所有，转载请联系作者获得授权。

码农公寓

相关文章