【kafka】设置指定topic和group_id消耗的offset

2023-02-02 13:11:27

该博文方法有问题，正确方案在http://www.cnblogs.com/dplearning/p/7992994.html

背景：

搭建了一个kafka集群，建立了topic test，用group_id ttt 消耗topic.

但问题是，我消费的处理太慢了，导致了上百万数据的挤压，即offset滞后上百万

现在，想放弃上一次的任务，执行新的任务。但是topic名称和group_id不能变化。

想了几个方案，觉得重置offset是最符合我需求的。

import os

from confluent_kafka import Consumer, KafkaError, TopicPartition

# 获取最大logsize

def get_logsize():

    cmd = "/usr/local/share/applications/kafka/kafka_2.11-0.11.0.0/bin/kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --group ttt --zookeeper x.x.x.x:2181 --topic test"

    res = os.popen(cmd).read()

    logsize = res.split("\n")[1].split()[4]

    return int(logsize)

c = Consumer({'bootstrap.servers': 'x.x.x.x:9092',

              'group.id': 'ttt',

              'default.topic.config': {'auto.offset.reset': 'largest'}})

c.subscribe(['test'])

logsize = get_logsize()

tp = TopicPartition('test', 0, logsize)

c.commit(offsets = [tp])  # 直接将offset置为logsize,跳过未消费的数据

我没找到怎么直接通过confluent_kafka获取logsize.

https://docs.confluent.io/3.0.0/clients/confluent-kafka-python/#configuration 有提到OFFSET_END，但是我用了后OFFSET_END值为-1，并没有将offset置为最新。

只好用命令行获取了.............

方案二（放弃）：删除topic以及所有相关数据。

上网查了查，太复杂了。要删zookeeper和kafka的log文件，还要重启服务。

这跟我想的不一样啊，难道kafka就没有直接清除数据的指令吗.............

整体感受：kafka的API比我想象中少很多，或者是我没找到....

码农公寓

相关文章