apache kafka中国社区QQ群:162272557
1、监控目标
1.当系统可能或处于亚健康状态时及时提醒,预防故障发生
2.报警提示 a.短信方式 b.邮件
2、监控内容
2.1 机器监控
Kafkaserver指标
- CPU Load
- Disk IO
- Memory
- 磁盘log.dirs文件夹下数据文件大小,要有定时清除策略
2.2 JVM监控
主要监控JAVA的 GC time(垃圾回收时间)。JAVA的垃圾回收机制对性能的影响比較明显
2.3 Kafka系统监控
1、Kafka整体监控
- zookeeper上/XXX/broker/ids文件夹下节点数量
- leader 选举频率
2、Kafka Broker监控
- kafka集群中Broker列表,broker执行状况,包含node下线,活跃数量
- Broker是否提供服务
- 数据流量 流入速度,流出速度 (message / byte)
- ISR 收缩频率
3、Kafka Controller监控
- controller存活数目
4、Kafka Producer监控
- producer数量,排队情况
- 请求响应时间
- QPS/分钟
5、Kafka Consumer监控
- consumer队列中排队请求数
- 请求响应时间
- 近期一分钟平均每秒请求数
6、Topic监控
- 数据量大小。
- offset
- 数据流量 流入速度,流出速度 (message / byte)
3.监控指标
3.1 JVM监控
a.通过JMX获取GC time
b.jvm full gc次数
c.通过jmx监控kafka相关參数
3.2 kafka系统监控
监控数据获取方式
1、生存节点信息能够从zookeeper获取
2、除生存节点 和
a、Broker是否提供服务。
b、Topic数据量大小。
c、Topic的offset 外,其它数据都能够通过JMX获取
请注明转载自:http://blog.csdn.net/lizhitao/article/details/24581907