Apache doris stream load任务导致大量任务堆积结束不了的问题

2024-01-01 15:15:04

问题描述

前两天doris 0.14.7发布以后，测试以后生产环境进行了升级，一切都很顺利，包括原先这篇博客中描述的问题[记录一次Doris FE故障排除]，也得到了很好的解决(https://my.oschina.net/u/3774656/blog/4923055 "记录一次Doris FE故障排除")。但是集群启动以后发现，数据不能插入，查询速度非常慢，很不正常，最后通过下面命令查询 show proc '/transactions' 逐个库排查，发现其中一个库里堆积了大量任务没有结束因为COMMITTED 状态的任务是无法取消的，必须成功，导致我的集群没办法工作，最后没办法只能重启FE，将这些任务释放掉，因为我的数据ODS层是Uniq模型，只需要flink从新将这段时间kafka的数据重新消费一遍，进入到doris就行，存在的数据会覆盖，不会出现脏数据问题这个问题解决以后，平稳的运行了三天，度过了一个不错的周末，但是周一到公司这个问题又出现了，没办法，只能老办法解决，重启FE

问题定位

最后和社区的明雨大神一起定位，认为是因为大量的写，导致写元数据（包括过期任务清理等）占用锁时间太长。 2.给出的解决方案是，修改label_keep_max_second这个参数这个参数的作用是： label_keep_max_second 后将删除已完成或取消的加载作业的标签去除的标签可以重复使用。设置较短的时间会降低 FE 内存使用量。（因为所有加载作业的信息在被删除之前都保存在内存中）在高并发写的情况下，如果出现大量作业积压，出现call frontend service failed的情况，查看日志如果是元数据写占用锁的时间太长，可以将这个值调成12小时，或者更小6小时我们将这个参数值调成6个小时候，就在也没有出现过这个问题，已经平稳运行一两个月没有再出问题，后续社区也对这块锁做了优化

码农公寓

问题描述

问题定位

相关文章