Kafka数据丢失解决方案

原創

2020-05-15 02:48

producer 数据不丢失：

同步模式：配置=1 （只有Leader收到，-1 所有副本成功，0 不等待）Leader Partition挂了，数据就会丢失
解决：设置 -1 保证produce 写入所有副本算成功 producer.type = sync request.required.acks=-1
异步模式，当缓冲区满了，如果配置为0（没有收到确认，一满就丢弃），数据立刻丢弃
解决：不限制阻塞超时时间。就是一满生产者就阻塞

producer.type = async

request.required.acks=1

queue.buffering.max.ms=5000

queue.buffering.max.messages=10000

queue.enqueue.timeout.ms = -1

batch.num.messages=200

Customer 不丢失数据

在获取kafka的消息后正准备入库（未入库），但是消费者挂了，那么如果让kafka自动去维护offset它就会认为这条数据已经被消费了，那么会造成数据丢失。
解决：使用kafka高级API，自己手动维护偏移量，当数据入库之后进行偏移量的更新（适用于基本数据源）

流式计算。高级数据源以kafka为例，由2种方式：receiver (开启WAL，失败可恢复) director （checkpoint保证）

流处理中的几种可靠性语义：

at most once 每条数据最多被处理一次（0次或1次），会出现数据丢失的问题
at least once 每条数据最少被处理一次（1次或更多），这个不会出现数据丢失，但是会出现数据重复
exactly once 每种数据只会被处理一次，没有数据丢失，没有数据重复，这种语义是大家最想实现的，也是最难实现的

但是开启WAL后，依旧存在数据丢失问题，原因是任务中断时receiver 也被强行终止了，将会造成数据丢失

在Streaming程序的最后添加代码，只有在确认所有receiver都关闭的情况下才终止程序

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Kafka数据丢失解决方案

producer 数据不丢失：

Customer 不丢失数据

EXCEL中下拉菜单中添加新选项或者删除选项

号称能打败MLP的KAN到底行不行？数学核心原理全面解析

同事使用 insert into select 迁移数据，开开心心上线，上线后被公司开除！

Git使用经验总结5-修改提交信息

Python 爬虫：Spring Boot 反爬虫的成功案例

京东科技数字化营销能力的演进与最佳实践| 京东云技术团队

Git使用经验总结4-撤回上一次本地提交

Java中止线程的方式

压榨数据库的真实处理速度

[转帖]Oracle Exadata 学习笔记之核心特性Part1

那些年，菜丸被面試官逼瘋的IO流

值傳遞和引用傳遞有什麼區別

解決一下控制檯的亂碼

Maven學習之pom.xml常用標籤元素&&依賴衝突的解決&&繼承 ( I )

Spring+Mybatis+SpringMVC 整合 XML

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結