Cube--碎片管理

Cube碎片管理

增量构建的问题

  • 日积月累,增量构建的Cube中的Segment越来越多,该Cube的查询性能也会越来越慢,因为需要在单点的查询引擎中完成越来越多的运行时聚合。为了保持查询性能
    • 需要定期地将某些Segment合并在一起
    • 或者让Cube根据Segment保留策略自动地淘汰那些不会再被查询到的陈旧Segment

管理Cube碎片

  • 上述案例,每天都会生成一个Segment,对应就是HBase中的一张表。增量构建的Cube每天都可能会有新的增量。这样的Cube中最终可能包含上百个Segment,这将会导致Kylin性能受到严重的影响。
    • 从执行引擎的角度来说,运行时的查询引擎需要聚合多个Segment的结果才能返回正确的查询结果
    • 从存储引擎的角度来说,大量的Segment会带来大量的文件,给存储空间的多个模块带来巨大的压力,例如Zookeeper、HDFS Namenode等
  • 因此,有必要采取措施控制Cube中Segment的数量。
  • segment数量过多
    Cube--碎片管理

手动触发合并Segment

  • Kylin提供了一种简单的机制用于控制Cube中Segment的数量:合并Segments。在Web GUI中选中需要进行Segments合并的Cube,

  • 操作步骤:

  • 1、单击Action→Merge
    Cube--碎片管理

  • 2、选中需要合并的Segment,可以同时合并多个Segment,但是这些Segment必须是连续的

    • 单击提交后系统会提交一个类型为“MERGE”的构建任务,它以选中的Segment中的数据作为输入,将这 些Segment的数据合并封装成为一个新的Segment。新的Segment的起始时间为选中的最早的Segment的起始时间,它的结束时间为选中的最晚的Segment的结束时间。
    • 查看合并任务
      Cube--碎片管理
  • 注意事项

    • 在MERGE类型的构建完成之前,系统将不允许提交这个Cube上任何类型的其他构建任务
    • 在MERGE构建结束之前,所有选中用来合并的Segment仍然处于可用的状态
    • 当MERGE构建结束的时候,系统将选中合并的Segment替换为新的Segment,而被替换下的Segment等待将被垃圾回收和清理,以节省系统资源

删除Segment

使用WebUI删除Cube的segment

  • 1、disable Cube
    Cube--碎片管理

  • 2、点击 delete Segment,删除指定的segment
    Cube--碎片管理

使用Postman发送请求删除Segment

属性
URL http://node1:7070/kylin/api/cubes/{cubeName}/segs/{segmentName}
请求方式 DELETE
  • postman示意图
    Cube--碎片管理

自动合并

手动维护Segment很繁琐,人工成本很高,Kylin中是可以支持自动合并Segment。

  • 在Cube Designer的“Refresh Settings”的页面中有:

    • Auto Merge Thresholds
    • Retention Threshold
  • “Refresh Settings”的页面
    Cube--碎片管理

  • 两个设置项可以用来帮助管理Segment碎片。这两项设置搭配使用这两项设置可以大大减少对Segment进行管理的麻烦。

1、Auto Merge Thresholds

  • 允许用户设置几个层级的时间阈值,层级越靠后,时间阈值就越大
  • 每当Cube中有新的Segment状态变为READY的时候,会自动触发一次系统自动合并
  • 合并策略
    • 尝试最大一级的时间阈值,例如:针对(7天、28天)层级的日志,先检查能否将连续的若干个Segment合并成为一个超过28天的大Segment
    • 如果有个别的Segment的时间长度本身已经超过28天,系统会跳过Segment
    • 如果满足条件的连续Segment还不能够累积超过28天,那么系统会使用下一个层级的时间阈值重复寻找

示例1 - 理解Kylin自动合并策略

  • 假设自动合并阈值设置为7天、28天
  • 如果现在有A-H8个连续的Segment,它们的时间长度为28天(A)、7天(B)、1天(C)、1天(D)、1天(E)、1天(F)、1天(G)、1天(H)
  • 此时,第9个Segment I加入,时间长度为1天。
  • 自动合并策略为:
    • 1、Kylin判断时候能将连续的Segment合并到28天这个阈值,由于Segment A已经超过28天,会被排除
    • 2、剩下的连续Segment,所有时间加一起 B + C + D + E + F + G + H + I (7 + 1 + 1 + 1 + 1 + 1 + 1 + 1 = 14) < 28天,无法满足28天阈值,开始尝试7天阈值
    • 3、跳过A(28)、B(7)均超过7天,排除
    • 4、剩下的连续Segment,所有时间加一起 C + D + E + F + G + H + I(1 + 1 + 1 + 1 + 1 + 1 + 1 = 7)达到7天阈值,触发合并,提交Merge任务。并构建一个Segment X(7天)
    • 5、合并后,Segment为:A(28天)、B(7天)、X(7天)
    • 6、继续触发检查,A(28天)跳过,B + X(7 + 7 = 14)< 28天,不满足第一阈值,重新使用第二阈值触发
    • 7、跳过B、X,尝试终止

示例2:配置自动合并4天的Segment

  • 操作步骤:

  • 1、配置自动合并阈值为(4、28)
    Cube--碎片管理

  • 2、分别按照天构建分区Cube

  • 3、自动触发合并Segment构建
    Cube--碎片管理
    Cube--碎片管理

配置保留Segment

  • 自动合并是将多个Segment合并为一个Segment,以达到清理碎片的目的。保留Segment则是及时清理不再使用的Segment。
  • 在很多场景中,只会对过去一段时间内的数据进行查询,例如:
    • 对于某个只显示过去1年数据的报表
    • 支撑它的Cube其实只需要保留过去一年类的Segment即可
    • 由于数据在Hive中已经存在备份,则无需在Kylin中备份超过一年的历史数据
  • 可以将Retention Threshold设置为365。每当有新的Segment状态变为READY的时候,系统会检查每一个Segment。如果它的结束时间距离最晚的一个Segment的结束时间已经大于等于“Retention Threshold”,那么这个Segment将被视为无需保留。系统会自动地从Cube中删除这个Segment。

保留策略示意图

Cube--碎片管理

需求:配置保留Segment为2天,分别构建增量Segment,测试Segment保留情况

  • 操作步骤:

  • 1、在Cube中设置Retention Range为2
    Cube--碎片管理

  • 2、重新构建Cube

  • 3、测试超过指定保留时间的Segment,是否被自动移除

上一篇:OOP & Pointer: Segment Tree


下一篇:嵌套线段