DB数据库通用监控项衡量标准
ipcpu 2年前 (2023-05-12) 151浏览 0评论
运维团队的业务运维和DB运维是分离的,在业务运维看来,DB就是一个黑盒子,那么如何评估这个黑盒子是正常运作的呢? 鉴于我们使用的Prometheus监控,所以提出以下需求来衡量: DB的OS层面,需要有node_exporter监控覆盖 需要有D...
ipcpu 2年前 (2023-05-12) 151浏览 0评论
运维团队的业务运维和DB运维是分离的,在业务运维看来,DB就是一个黑盒子,那么如何评估这个黑盒子是正常运作的呢? 鉴于我们使用的Prometheus监控,所以提出以下需求来衡量: DB的OS层面,需要有node_exporter监控覆盖 需要有D...
ipcpu 4年前 (2021-04-02) 7860浏览 0评论
prometheus和node_exporter中的磁盘监控.md 对于磁盘问题,我们主要关注以下几个指标: 磁盘空间使用率、磁盘inode使用率(df -h和df -i命令) 磁盘读写次数IOPS (iostat中的r/s、w/s) ...
ipcpu 4年前 (2021-03-12) 1555浏览 0评论
一、概述 随着prometheus在越来越多的生产环境中推广开来,监控项series必然会越来越多,OOM时常会发生,扩容就会成为常态,单实例运行的prometheus瓶颈凸显,扩展成为大势所趋。本文来讨论下prometheus扩展的一些方向。 本...
ipcpu 4年前 (2020-12-31) 2890浏览 0评论
grafana柱状图.md 概述 grafana作为一款优秀的时序数据库展示工具,在业内使用极为广泛,但是我们很多时候需要展示一些非时序型的数据或者时间跨度很大的数据,比如月度费用走势这样,一个月只有一个值的柱状图,大家往往无从下手。本文简单的阐述了...
ipcpu 6年前 (2018-07-25) 4101浏览
概述 dmesg是Linux中的输出系统错误的命令,比如OOM或者Kernel Panic都会显示在这里,因此监控dmesg的报错也极为重要。 使用Python编写检测脚本 #!/usr/bin/env python # -*- codin...
ipcpu 7年前 (2018-05-22) 21018浏览
Kafka消费积压Lag监控工具Burrow的使用.md 一、概述 Kafka是业内流行的日志队列处理软件,使用极为广泛,但是关于对Kafka的监控问题,网上的文章和相关的软件就比较少了。 KafkaManager算是几个开源软件里做的比较好的。可...
ipcpu 7年前 (2018-04-09) 3265浏览
Redis监控汇总二.md 好了,说完系统自带的,我们来看看开源redis监控都有哪些吧 首先推荐的是Facebook家的小工具,redis-faina 三、redis-faina redis-faina是一个通过解析redis的MONITOR命令...
ipcpu 7年前 (2018-04-08) 4962浏览
Redis监控汇总一.md 一、概述 对于任何运行在生产环境的软件,监控都是必不可少的一个环节。 我们在分析各种工具之前,先来看下redis都有哪些指标需要关注和监控。 Redis监控的用途有两种,一种是类似于zabbix,监控指标并用来报警,另外一...
ipcpu 7年前 (2018-03-02) 4867浏览
Flume进阶Interceptor和监控.md 一、Flume的Interceptor Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对e...
ipcpu 8年前 (2017-04-03) 6686浏览
zabbix使用python获取阿里云SLB带宽.md 阿里云SDK 阿里云目前提供了很多的SDK,并且可以使用在线调试工具,虽然有些bug https://develop.aliyun.com/tools/sdk?#/python 在线调试工具 ...