DB数据库通用监控项衡量标准

运维团队的业务运维和DB运维是分离的，在业务运维看来，DB就是一个黑盒子，那么如何评估这个黑盒子是正常运作的呢？
鉴于我们使用的Prometheus监控，所以提出以下需求来衡量：

DB的OS层面，需要有node_exporter监控覆盖

需要有DB数据库服务是否正常运行的up指标，服务是否重启的报警，或者端口存活的监控

DB集群，需要有主备切换的监控，需要有主备同步的延迟的监控，从节点(集群节点)数据变化的监控

需要有衡量DB是否在正常工作，工作是否繁忙的QPS、TPS数据(或者写入、读取数据)

需要有衡量数据库是否变慢的平均响应时间的指标

需要有慢查询条数的报警

需要有数据库连接数利用率指标

缓存命中率指标

对于操作系统层面的存储，需要衡量其是否卡顿：

IOPS利用率指标(提前锚定IOPS最大值)

磁盘读写延迟监控

转载请注明：IPCPU-网络之路 » DB数据库通用监控项衡量标准

DB数据库通用监控项衡量标准

与本文相关的文章

Hi，您需要填写昵称和邮箱！