kylin是一款分析引擎,最常用的数据源是Hive。1.5版本之后数据源增加了kafka,但最常用的仍然是Hive。但是Hive查询比较慢,Kylin解决了这一问题。
大致流程:
第一步:从Hive或Kafka中获取数据;
第二步:有Cube构建引擎对数据进行加工;
第三步:将加工后的数据存储到HBase;(Kylin快的根本所在)
第四步:暴露接口供外部查询。
以下这个组件负责数据的查询,亿级数据亚秒级别查询就靠它了:
以下两个组件用于解决离线数据的存储:
Kylin从Hive中获取到数据,然后由下面这个组件进行加工:将所有维度可能的组合给提前预计算好之后存储到HBase,查询九直接走HBase。这个预计算的过程就是MR来完成的,1.6之后可以选择spark作为计算引擎。
名词解释维度和度量
比如:性别、年龄是维度,人数就是度量(也叫指标等)