物理服务器内存EDAC故障和告警
ipcpu 1年前 (2023-08-02) 58浏览 0评论
随着物理服务器的老化,我们发现有很多服务器会报内存故障,表示内存条故障,然后再运行一段时间,就会突然宕机。 进入服务器,通过dmesg可以看到报错 [78802930.264886] EDAC sbridge MC0: HANDLING MCE ME...
ipcpu 1年前 (2023-08-02) 58浏览 0评论
随着物理服务器的老化,我们发现有很多服务器会报内存故障,表示内存条故障,然后再运行一段时间,就会突然宕机。 进入服务器,通过dmesg可以看到报错 [78802930.264886] EDAC sbridge MC0: HANDLING MCE ME...
ipcpu 1年前 (2023-07-08) 52浏览 0评论
在排查生成环境时发现一个机器有个奇怪的现象: Rocketmq Exporter这个程序疯狂的向journald输出日志,日志量非常大,导致磁盘IO利用率很高,但是打印的日志没有什么实际价值,都是DEBUG信息。 因为这个Rocketmq Expor...
ipcpu 1年前 (2023-06-28) 210浏览 0评论
如何准确识别K8S中的PodOOMKilled并发出报警 一、引子 领导要求K8S系统中只要发现Pod容器被OOMKilled,就要发出报警,原因是啥呢,是因为领导发现有些故障总是会伴随着PodOOM,两者之间有一定的关联,所以才要求报警发出来,给大...
ipcpu 2年前 (2023-05-12) 150浏览 0评论
运维团队的业务运维和DB运维是分离的,在业务运维看来,DB就是一个黑盒子,那么如何评估这个黑盒子是正常运作的呢? 鉴于我们使用的Prometheus监控,所以提出以下需求来衡量: DB的OS层面,需要有node_exporter监控覆盖 需要有D...
ipcpu 2年前 (2023-04-07) 161浏览 0评论
近期我们发现监控图像会不定期的出现断点情况,图像上一根连续的曲线突然就断开了,如下 经过排查发现,数据是通过Prometheus的联邦模式从别的Prometheus实例采集上来的,于是我们去原实例上进行查询,发现原始数据没有断点,如下图, 那么问...
ipcpu 2年前 (2023-03-16) 156浏览 0评论
查看K8S/Docker容器的PID 先使用docker ps 查询到docker的shortId 然后用下面的几种方法都可以定位到PID。 # 方法一 docker top <containerId> #方法二 docker ins...
ipcpu 2年前 (2023-02-06) 157浏览 0评论
之前有位同学设置成这样 environment: - TZ="Asia/Shanghai" 死活就是不生效,查看了官方的文档,需要把引号去掉 environment: - TZ=Asia/Shanghai 就可以了,哈哈哈...
ipcpu 2年前 (2023-01-31) 126浏览 0评论
遇到一个问题,在nginx中使用add_header时,只有当返回码是2xx,3xx时才生效,网上一搜果然,找到了一个很详细的解释,如下: For nginx >= 1.7.5 Append "always" to the...
ipcpu 2年前 (2023-01-21) 171浏览 0评论
概述 Nginx的配置中有一个参数:underscores_in_headers,这个参数默认值为:off,意思是默认忽略名称带下划线的 HTTP Header头部信息,也就是说带下划线的 HTTP Header会被Nginx直接忽略,不会向后端up...
ipcpu 2年前 (2022-11-22) 140浏览 0评论
filter_by() 和 filter() 的最主要的区别: 谈 filter_by() 的语法之前先看下 filter_by() 的内部源码,去掉注释之后如下: def filter_by(self, **kwargs): ...