1、幂等性是什么
- 比如HTTP请求,一次或多次请求,得到的响应是一致的(网络超时等除外),就是执行多次和执行一次的操作影响是一样的。
- 如果某个系统是不具备幂等性的,用户重复提交了某个表格就会造成不良影响。例如,用户在浏览器上点击了多次提交订单按钮,会在后台生成一个一模一样的订单。
2、Kafka的幂等性
(1)在生产者生产消息时,如果出现retry,有可能会一条消息被重复发送了多次,如果Kafka不具备幂等性就可能会在partition中保存多条一模一样的消息。
(2)配置幂等性
- Props.put(“enable.idempotence”,true);
(3)生产者消息重复问题
- Kafka生产者生产消息到partition,如果直接发送消息,kafka会将消息保存到分区中,但Kafka会返回一个ack给生产者,表示当前操作是否成功,是否已经保存了这条消息。如果ack响应的过程失败了,此时生产者会重试,继续发送没有发送成功的消息,Kafka又会保存一条—模一样的消息。
(4)在Kafka中可以开启幂等性
- 当Kafka的生产者生产消息时,会增加一个pid (生产者的唯一编号)和sequence number(针对消息的一个递增序列)。
- 发送消息,会连着pid和sequence number一块发送。
- kafka接收到消息,会将消息和pid、sequence number一起保存下来。
- 如果ack响应失败,生产者重试,再次发送消息时,Kafka会根据pid、sequence number判断是否需要再保存一条消息。判断条件:生产者发送过来的sequence number是否小于等于partition中消息对应的sequence。
3、幂等性原理
- 为了实现生产者幂等性,Kafka引入了producer ID(PID)和sequence Number的概念。
- PID:每个producer在初始化时,都会分配一个唯一的PID,这个PID对用户来说是透明的。
- Sequence Number:针对每个生产者(对应PID)发送到指定主题分区的消息都对应一个从0开始递增的sequence Number。