最新消息:

IT技术

如何准确识别K8S中的PodOOMKilled并发出报警

如何准确识别K8S中的PodOOMKilled并发出报警

ipcpu 1年前 (2023-06-28) 211浏览 0评论

如何准确识别K8S中的PodOOMKilled并发出报警 一、引子 领导要求K8S系统中只要发现Pod容器被OOMKilled,就要发出报警,原因是啥呢,是因为领导发现有些故障总是会伴随着PodOOM,两者之间有一定的关联,所以才要求报警发出来,给大...

DB数据库通用监控项衡量标准

DB数据库通用监控项衡量标准

ipcpu 2年前 (2023-05-12) 150浏览 0评论

运维团队的业务运维和DB运维是分离的,在业务运维看来,DB就是一个黑盒子,那么如何评估这个黑盒子是正常运作的呢? 鉴于我们使用的Prometheus监控,所以提出以下需求来衡量: DB的OS层面,需要有node_exporter监控覆盖 需要有D...

Prometheus联邦采集超时导致监控图像出现断点

Prometheus联邦采集超时导致监控图像出现断点

ipcpu 2年前 (2023-04-07) 162浏览 0评论

近期我们发现监控图像会不定期的出现断点情况,图像上一根连续的曲线突然就断开了,如下 经过排查发现,数据是通过Prometheus的联邦模式从别的Prometheus实例采集上来的,于是我们去原实例上进行查询,发现原始数据没有断点,如下图, 那么问...

Redis故障整理-既是热key也是大key导致网卡PPS过高

Redis故障整理-既是热key也是大key导致网卡PPS过高

ipcpu 2年前 (2022-10-24) 1804浏览 0评论

Redis故障整理-热key也是大key导致网卡PPS过高.md 之前我们遇到过热key,命中了集群中的一组服务器,导致其网卡PPS超出了极限值,经常性出现redis响应变慢的问题。 我们随即对机器和网卡进行了升级,升级成多队列网卡,设置了4个CPU...

Python当中的ORM

Python当中的ORM

ipcpu 2年前 (2022-10-04) 738浏览 0评论

Python当中的ORM.md 除了直接用SQL语句操作关系数据库,Python中的另一种与关系数据库进行交互的技术是ORM。本节介绍ORM的概念和Python中的ORM包。 ORM理论基础 ORM(Object-Relational Mappi...

Redis过期Key、内存回收的一些细节

Redis过期Key、内存回收的一些细节

ipcpu 2年前 (2022-09-29) 1079浏览 0评论

Redis可以说是一个内存级数据库,受限于物理内存的大小,我们会限制Redis对内存的使用,这在Redis中主要体现在以下两个方面: 删除已经过期的Key 内存使用达到maxmemory上限时触发内存溢出控制策略 一、删除已经过期的Key ...

K8S/Docker中对于容器内存的监控

K8S/Docker中对于容器内存的监控

ipcpu 2年前 (2022-09-28) 1200浏览 0评论

一、概述 在使用Docker或者Kubernetes时,我们经常需要监控容器或者Pod的内存,同时我们也经常收到反馈内存不准确的情况,这不仅是因为存在Buffer、Cache的影响,不同的算法指标也会得出不同的结果。 接下来我们先回顾下我们最古老...

外部日志(CDN日志)导入到阿里云日志服务SLS中

外部日志(CDN日志)导入到阿里云日志服务SLS中

ipcpu 2年前 (2022-08-19) 1018浏览 0评论

一、概述 有时候我们的日志(例如CDN日志)不在阿里云,但是想要导入到阿里云的日志服务SLS中进行分析。 这时候我们优先想到的是把日志文件传入阿里云的ECS服务器上(入带宽是免费的),然后在用ilogtail工具导入,但是我们发现这个过程还有坑,...

Redis故障整理-热KEY导致网卡PPS过高

Redis故障整理-热KEY导致网卡PPS过高

ipcpu 2年前 (2022-07-27) 768浏览 0评论

故障背景 接到开发同学反馈,服务响应变慢,经过trace系统分析, 状态码为错误的情况很少,但是连接redis响应时间变慢,300ms以上的trace数量明显增加。 怀疑Redis出现性能问题,查看redis监控图,发现QPS接近4万。(3主3从的C...