Kafka面试题 part-1

2024-11-10 07:15:48

一、kafka消息发送的流程？

发送原理：

在消息发送的过程中，涉及到了两个线程——main 线程和 Sender 线程。在 main 线程中创建了一个双端队列 RecordAccumulator。main 线程将消息发送给 RecordAccumulator，Sender 线程不断从 RecordAccumulator 中拉取消息发送到 Kafka Broker。

0: 生产者发送的数据，不需要等数据落盘应答。

1：生产者发送过来的数据，Leader收到数据后应答。

-1：（all）:生产者发送过来的数据，Leader 和 ISR 队列里面的所有节点收齐数据后应答。 -1 和 all 是等价的。

二、Kafka 的设计架构？

Kafka 基础架构：

ISR:In-Sync Replicas isr 是一个副本的列表，里面存储的都是能跟leader 数据一致的副本

1）Producer：消息生产者，就是向 Kafka broker 发消息的客户端。

2）Consumer：消息消费者，向 Kafka broker 取消息的客户端。

3）Consumer Group（CG）：消费者组，由多个 consumer 组成。消费者组内每个消费者负责消费不同分区的数据，一个分区只能由一个组内消费者消费；消费者组之间互不影响。所有的消费者都属于某个消费者组，即消费者组是逻辑上的一个订阅者。

4）Broker：一台 Kafka 服务器就是一个 broker。一个集群由多个 broker 组成。一个 broker 可以容纳多个 topic。

5）Topic：可以理解为一个队列，生产者和消费者面向的都是一个 topic。

6）Partition：为了实现扩展性，一个非常大的 topic 可以分布到多个 broker（即服务器）上，一个 topic 可以分为多个 partition，每个 partition 是一个有序的队列。

7）Replica：副本。一个 topic 的每个分区都有若干个副本，一个 Leader 和若干个 Follower。

8）Leader：每个分区多个副本的“主”，生产者发送数据的对象，以及消费者消费数据的对象都是 Leader。

9）Follower：每个分区多个副本中的“从”，实时从 Leader 中同步数据，保持和 Leader 数据的同步。Leader 发生故障时，某个 Follower 会成为新的 Leader。

三、Kafka 分区的目的？

（1）便于合理使用存储资源，每个Partition在一个Broker上存储，可以把海量的数据按照分区切割成一块一块数据存储在多台Broker上。合理控制分区的任务，可以实现负载均衡的效果。

（2）提高并行度，生产者可以以分区为单位发送数据；消费者可以以分区为单位进行消费数据。

四、Kafka 是如何做到消息的有序性？

生产经验——数据有序

生产者发送的数据，单分区内可以做到有序，多分区，无法保证，除非把多个分区的数据拉到消费者端，进行排序，但这样做需要等，效率很低，还不如直接设置一个分区。

生产经验——数据乱序

1）kafka在1.x版本之前保证数据单分区有序，条件如下：

max.in.flight.requests.per.connection=1（不需要考虑是否开启幂等性）。

2）kafka在1.x及以后版本保证数据单分区有序，条件如下：

（2）开启幂等性

max.in.flight.requests.per.connection需要设置小于等于5。

（1）未开启幂等性

max.in.flight.requests.per.connection需要设置为1。

原因说明：因为在kafka1.x以后，启用幂等后，kafka服务端会缓存producer发来的最近5个request的元数据，故无论如何，都可以保证最近5个request的数据都是有序的。

出现乱序的原因：

1）生产者在发送3请求的时候，发生异常，发生异常需要重新发送，所以排在了后面，在进行落盘的时候，先落盘1，2 ，落盘3的时候发现是4，需要等，等到3出现为止，然后将 3，4 ，5排序，排序后再进行落盘。

顺序错乱了，会自动排序（开启幂等性）。

五、ISR、OSR、AR 是什么？

1. AR（Assigned Replica，分配的副本）

AR 是指被分配给分区的副本集合。在 Kafka 中，每个分区都有一个 AR 集合，其中包含了分区的所有副本。AR 是在 Kafka 控制器节点进行计算和管理的，它决定了每个分区的副本分配策略和副本的分布情况。

主要作用：

副本分配: AR 确定了每个分区的副本分配策略，包括副本的数量、分布和位置等。AR 决定了哪些节点上有分区的副本，以及每个节点上分配了多少个副本。
负载均衡: AR 通过动态调整副本的分布，实现了集群的负载均衡。通过在不同节点上分配副本，AR 可以避免某些节点的负载过重，提高了系统的整体性能和稳定性。

2. ISR（In-Sync Replica，同步副本）

ISR 是指与 Leader 副本保持数据同步的副本集合。在 Kafka 中，每个分区都有一个 ISR 集合，其中包含了与 Leader 副本保持数据同步的所有副本。ISR 是动态调整的，根据副本的同步状态和延迟情况而变化。

主要作用：

数据同步: ISR 确保了分区的所有副本与 Leader 副本保持数据同步。当消息被 Leader 副本确认接收后，ISR 中的副本也会逐渐复制消息，确保所有副本之间的数据一致性。
高可用性: ISR 中的副本可以快速接管分区的读写请求，提高了分区的高可用性。当 Leader 副本发生故障时，ISR 中的副本可以立即接管分区的服务，而无需等待数据复制完成。

3. OSR（Out-of-Sync Replica，不同步副本）

OSR 是指与 Leader 副本不保持数据同步的副本集合。在 Kafka 中，每个分区都有一个 OSR 集合，其中包含了与 Leader 副本数据不同步的副本。OSR 的存在是正常的，可能由于网络延迟、副本故障或其他原因导致副本与 Leader 副本之间的数据同步出现滞后。

主要作用：

故障检测: OSR 中的副本可能由于故障或其他原因导致与 Leader 副本的数据不同步。监控 OSR 中的副本状态可以帮助及时检测和处理副本的故障或异常情况。
动态调整: OSR 中的副本可以通过数据同步和复制来重新加入到 ISR 中，从而提高分区的可用性和性能。Kafka 控制器会根据副本的同步状态和延迟情况动态调整 ISR 和 OSR 的成员。

码农公寓

一、kafka消息发送的流程？

二、Kafka 的设计架构？

三、Kafka 分区的目的？

四、Kafka 是如何做到消息的有序性？

五、ISR、OSR、AR 是什么？

相关文章