全链路保证消息不丟失

生产端

数据丢失场景：为了提高吞吐量，生产端异步发送消息的情况下，会先存储再本地缓存中，当缓冲区大小、时间间隔到达会触发send操作，发送消息；

方案：

服务端消息丢失场景：

Kafka是异步落盘：kafka接收到消息，只要数据写入PageCache中，就会返回ACK，不需要等待落；如果pageCache落盘前宕机，会发生消息丢失的现象；概率很小；

解决：服务端保证消息可靠一般通过副本机制：

可用选择落盘策略，降低这两个参数，提高数据一致性：
- log.flush.interval.messages = 10000
  ，设置多少条消息，触发一次刷盘操作；
- log.flush.interval.ms = 10000
  ：间隔多少时间，触发刷盘；
增加ISR副本数：
min.insync.replicas
>= 2；

消息丢失场景：消费失败 + 自动提交机制，是基于一定的时间间隔，异步自动提交数据；

解决

使用手动提交，并且将消费逻辑和手动提交绑定在一个事务中，保证原子性；只有消费成功才提交offset；可用做到：最少一次；
- enable.auto.commit = false
要实现精确一次，还需保证幂等；

当消费者数量对应Partition数量，可以达到最大消费速率；

可以增加Partition数量，横向扩展并行度；

批量发送和批量拉取极大提升吞吐量；

减少数据拷贝次数，线程上下文切换次数；

二分搜索 + 稀疏索引 实现高效查询操作(通过时间戳和offset)

消耗一定的CPU，提高网络传输效率，提高吞吐量；

生产端可用通过配置：
compression.type = gzip
对消息进行单个或批量压缩；减少数据大小；
生产端同样配置有压缩算法；当与生产端压缩算法相同，则不需要解压缩，并且能够用到零拷贝；
- 当压缩算法不一致，就需要对数据进行解压，再次压缩，势必需要将数据拷贝到用户空间进行处理；
- 当压缩算法一致，不需要对消息进行额外处理，
消费端直接拉取压缩的数据，在客户端进行解压缩；