运维团队的业务运维和DB运维是分离的,在业务运维看来,DB就是一个黑盒子,那么如何评估这个黑盒子是正常运作的呢?
鉴于我们使用的Prometheus监控,所以提出以下需求来衡量:
- DB的OS层面,需要有node_exporter监控覆盖
- 需要有DB数据库服务是否正常运行的up指标,服务是否重启的报警,或者端口存活的监控
- DB集群,需要有主备切换的监控,需要有主备同步的延迟的监控,从节点(集群节点)数据变化的监控
- 需要有衡量DB是否在正常工作,工作是否繁忙的QPS、TPS数据(或者写入、读取数据)
- 需要有衡量数据库是否变慢的平均响应时间的指标
- 需要有慢查询条数的报警
- 需要有数据库连接数利用率指标
- 缓存命中率指标
对于操作系统层面的存储,需要衡量其是否卡顿:
- IOPS利用率指标(提前锚定IOPS最大值)
- 磁盘读写延迟监控
转载请注明:IPCPU-网络之路 » DB数据库通用监控项衡量标准