最新消息:

最新发布

物理服务器内存EDAC故障和告警
Linux

物理服务器内存EDAC故障和告警

ipcpu 1年前 (2023-08-02) 58浏览 0评论

随着物理服务器的老化,我们发现有很多服务器会报内存故障,表示内存条故障,然后再运行一段时间,就会突然宕机。 进入服务器,通过dmesg可以看到报错 [78802930.264886] EDAC sbridge MC0: HANDLING MCE ME...

应用程序疯狂向journald打印日志
Linux

应用程序疯狂向journald打印日志

ipcpu 1年前 (2023-07-08) 52浏览 0评论

在排查生成环境时发现一个机器有个奇怪的现象: Rocketmq Exporter这个程序疯狂的向journald输出日志,日志量非常大,导致磁盘IO利用率很高,但是打印的日志没有什么实际价值,都是DEBUG信息。 因为这个Rocketmq Expor...

如何准确识别K8S中的PodOOMKilled并发出报警
IT技术

如何准确识别K8S中的PodOOMKilled并发出报警

ipcpu 1年前 (2023-06-28) 210浏览 0评论

如何准确识别K8S中的PodOOMKilled并发出报警 一、引子 领导要求K8S系统中只要发现Pod容器被OOMKilled,就要发出报警,原因是啥呢,是因为领导发现有些故障总是会伴随着PodOOM,两者之间有一定的关联,所以才要求报警发出来,给大...

DB数据库通用监控项衡量标准
IT技术

DB数据库通用监控项衡量标准

ipcpu 2年前 (2023-05-12) 150浏览 0评论

运维团队的业务运维和DB运维是分离的,在业务运维看来,DB就是一个黑盒子,那么如何评估这个黑盒子是正常运作的呢? 鉴于我们使用的Prometheus监控,所以提出以下需求来衡量: DB的OS层面,需要有node_exporter监控覆盖 需要有D...

Prometheus联邦采集超时导致监控图像出现断点
IT技术

Prometheus联邦采集超时导致监控图像出现断点

ipcpu 2年前 (2023-04-07) 160浏览 0评论

近期我们发现监控图像会不定期的出现断点情况,图像上一根连续的曲线突然就断开了,如下 经过排查发现,数据是通过Prometheus的联邦模式从别的Prometheus实例采集上来的,于是我们去原实例上进行查询,发现原始数据没有断点,如下图, 那么问...

docker-compose时区的坑
Linux

docker-compose时区的坑

ipcpu 2年前 (2023-02-06) 157浏览 0评论

之前有位同学设置成这样 environment: - TZ="Asia/Shanghai" 死活就是不生效,查看了官方的文档,需要把引号去掉 environment: - TZ=Asia/Shanghai 就可以了,哈哈哈...

关于nginx中的underscores_in_headers参数
Linux

关于nginx中的underscores_in_headers参数

ipcpu 2年前 (2023-01-21) 171浏览 0评论

概述 Nginx的配置中有一个参数:underscores_in_headers,这个参数默认值为:off,意思是默认忽略名称带下划线的 HTTP Header头部信息,也就是说带下划线的 HTTP Header会被Nginx直接忽略,不会向后端up...