Kafka的副本机制

副本间的数据同步

如果某个Follower副本与Leader之间的网络延迟较大，或者Follower处理能力有限、或下线，导致无法及时跟上Leader的写入速度，那么该副本可能会被从ISR中移除；
重启后会放弃HW以后的数据，但是Leader仍然存有数据，会持续进行备份；
Leader宕机，一样重启后，重新从HW开始同步数据，原本高于HW的数据丢失，并且其他副本没有来得及同步的数据可能丢失；（开启
ACK = 1
可以有效减少数据丢失的可能）

OSR中的副本或上线后的宕机副本，会首先从磁盘恢复HW之前的数据，抛弃HW之后的数据，保证数据一致性，因为HW是消费者能看到的最大数据偏移
然后向Leader进行数据同步，追赶Leader；
当副本追赶上Leader的数据进度(同步到整个Partition的HW)，会被加入ISR候选，Controller会进行检测是否可以将副本重新加入ISR；
如果Leader仍然可用，那么就将ISR候选，加入ISR队列；并广播新的ISR向其他节点；

使用key-value方式存储：

kafka按照消费者组为单位进行消费；消费者组启动时，通过配置，选择开始消费位置：

auto.offset.reset = earliest / latest / none

自动提交：

# 是否自动提交
enable.auto.commit = true
# 自动提交频率
auto.commit.interval.ms = 1000

手动提交：