Kafka常见报错和jmx监控指标

日志报错总结:

日志关键字 监控项说明 备注
Error processing append operation on partition 一个类型告警 配置了正则过滤了下面的一二情况,如果仍然告警需要留意,通知相关人员。
org.apache.kafka.common.errors.UnknownProducerIdException: Found no record of producerId 幂等性问题 有一些一天可能只发送一条消息的,如果partition数超过7,比如设成8,设成7天的保留时间就有可能出现上面的问题,像这种消息的保留时间可以设成一个月甚至更长都没问题
org.apache.kafka.common.errors.OutOfOrderSequenceException: Out of order sequence number for producerId 幂等性问题 有一些一天可能只发送一条消息的,如果partition数超过7,比如设成8,设成7天的保留时间就有可能出现上面的问题,像这种消息的保留时间可以设成一个月甚至更长都没问题
org.apache.kafka.common.errors.NotEnoughReplicas: Number of insync replicas for partition partition在ISR中的副本,少于配置文件中要求的min.insync.replica=$ 配置副本同步成功最小数告警,发生此告警需要留意联系一下相关人员。
Broker may not be available kafka broker 不可用监控 需要留意集群健康情况,联系一下相关人员确认。
WARN Attempting to send response via channel for which there is no open connection 5595这个报错的issue在1.0.0版本也就是我们在用的版本已经修复了 不影响业务,可调源码需要留意连接zk过多情况
NotLeaderForPartionException:This server is not the leader for that topic-partition 发生了leader切换就有可能报NotLeaderForPartionException broker切换是这样的,因为partiton是均衡分布在各个broker的,所以不管是预期的还是非预期的broker切换,一般都会发生一些topic partition的leader切换,如果此时在完成切换前有读写请求,就会发现短时间的报错现象,切换完就恢复了
WARN Client session timed out, have not heard from server in 4002ms for sessionid 0x100b72efc7c0006 (org.apache.zookeeper.ClientCnxn) 客户端连接出现会话超时情况 zk会话超时出现的原因可能有多方面,比如网络问题如流量风暴,broker本身性能如full gc影响,zk性能原因等
INFO re-registering broker info in ZK for broker 0 (kafka.server.KafkaHealthcheck$SessionExpireListener) 发生了broker重连的情况 zk会话超时出现的原因可能有多方面,比如网络问题如流量风暴,broker本身性能如full gc影响,zk性能原因等
Shrinking ISR from 2,0,1 to 0 发生了ISR伸缩 isr伸缩的原因一般有两种,一种是真的有broker出现了问题下线了,会导致isr缩容,还有一种是复制原因,从节点来不及复制副本数据,这个有可能是发送的数据太大太多
This error can be ignored if the cluster is starting up and not all brokers are up yet 集群可能在重启中 集群重启时可忽略
UnknownTopicOrPartitionException: This server does not host this topic-partition 搜查可能bug https://issues.apache.org/jira/browse/KAFKA-6221 从issue讨论来看是偶发的,且一段时间会恢复,不会影响集群的,可以忽略

JMX监控指标总结:
参考:http://kafka.apachecn.org/documentation.html#monitoring
Kafka常见报错和jmx监控指标
Kafka常见报错和jmx监控指标Kafka常见报错和jmx监控指标

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章